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口 张 铮 倪 红 霞 苑 春 苗 杨 立 红 编著 


夏 内 容 涉及 数字 图 像 处 理 和 识别 技术 的 方方面面 ， 
包括 图 像 的 点 运算 、 几 何 变换 、 空 域 和 频 域 滤波 、 
小 波 变 换 、 图 像 复 原 、 形 态 学 处 理 、 图 像 分 草 ， 
以 及 图 像 特 征 提取 的 相关 内 容 。 


下 重点 介绍 了 目前 在 工程 技术 领域 非常 流行 的 分 类 
技术 一 一 人 工 神经 网 络 (ANN ) 和 支持 向 量 机 


( SVM ) ， 并 讲解 了 人 脸 识 别 技术 。 
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a 、 


图 像 处 理 与 识别 是 当今 计算 机 科学 中 一 个 热门 研究 方向 ， 其 应 用 广 
泛 ， 发 展 前 景 乐观 。Matlab 是 MathWorks 公 司 开 发 的 一 款 工程 数学 计算 
软件 。 由 于 其 强大 的 科学 运算 、 灵 活 的 程序 设计 流程 、 高 质量 的 图 形 可 
视 化 与 界面 设计 ， 以 及 便捷 的 与 其 他 程序 和 语言 接口 的 功能 ，Matlab 已 
成 为 当今 国际 上 科学 界 最 具 影响 力 、 最 有 活力 的 软件 。 本 书 正 是 紧密 结 
合 大 量 的 Matlab 代码 和 案例 展开 对 数字 图 像 处 理 和 识别 技术 的 介绍 。 

让 计算 机 理解 所 “看 ”到 的 东西 是 一 件 非常 神秘 和 令 人 兴奋 的 事情 。 
但 要 掌握 好 数字 图 像 处 理 与 识别 技术 却 并 非 易 事 ， 它 的 理论 性 较 强 、 门 
槛 较 高 ， 在 各 个 高 校 中 ， 这 门 课程 多 是 作为 计算 机 专业 研究 生 的 选修 课 
程 。 要 理解 该 领域 的 知识 ， 读 者 需要 具有 一 定 的 数学 基础 ， 除 此 之 外 ， 
还 涉及 信号 处 理 、 统 计 分 析 、 模 式 识别 和 机 器 学 习 等 专业 领域 知识 ， 因 
此 ， 令 很 多 人 望而却步 。 

其 实 “ 难 以 理解 ”的 关键 在 于 缺乏 必要 的 先 序 知识 ， 造 成 了 读者 在 相 
关 知 识 上 难以 跨越 的 鸿沟 。 我 们 在 撰写 本 书 过 程 中 ， 对 于 可 能 造成 读者 
理解 困难 的 地 方 ， 均 给 出 了 必要 的 先 序 知识 ， 尽 量 定性 地 去 描述 ; 对 于 
那些 并 不 一 目 了 然 的 结论 均 给 出 了 思路 和 解释 ， 对 于 某 些 非 常 专业 、 己 
经 超过 本 书 讨论 范围 的 相关 知识 也 都 在 全 书 最 后 给 出 了 参考 文献 ， 供 有 
兴趣 的 读者 进一步 学 习 和 研究 。 

本 书 的 宗旨 是 ， 癌 读者 介绍 知识 的 同时 ， 培 养 读 者 的 思维 方法 ， 使 
读者 知 其 然 还 要 知 其 所 以 然 ， 并 在 解决 实际 问题 中 能 有 自己 的 想法 。 

一 一 内容 安排 

全 书 共 分 15 章 ， 主 要 内 容 介 绍 如 下 。 

第 1 一 2 章 介 绍 了 数字 图 像 处 理 的 基础 知识 和 Matlab 数 字 图 像 编 程 基 
础 ， 使 读者 第 一 步 能 够 建立 起 对 于 数字 图 像 本 质 的 正确 认识 ， 了 解 和 掌 




















握 必要 的 术语 ， 并 且 熟 悉 本 书目 始 至 终 需 要 使 用 的 工具 Matlab， 重 点 介 
绍 其 数字 图 像 处 理工 具 箱 。 

第 3 一 4 章 分 别 介绍 了 图 像 的 灰 度 变换 和 几何 变换 。 通 过 灰 度 变换 可 
以 有 效 改善 图 像 的 外 观 ， 并 在 一 定 程度 上 实现 图 像 的 灰 度 归 一 化 ; 几何 
变换 则 主要 应 用 在 图 像 的 几何 归 一 化 和 图 像 校 准 当中 。 总 体 而 言 ， 这 些 
内 容 大 多 作为 图 像 的 前 期 预 处 理工 作 的 一 部 分 ， 是 图 像 处 理 中 相对 固定 
和 程式 化 的 内 容 。 

第 5 一 6 章 分 别 从 空间 域 和 频率 域 两 个 角度 去 考量 图 像 增强 的 各 个 主 
要 方面 。 图 像 增强 作为 数字 图 像 处理 中 相对 简单 却 最 具 艺 术 性 的 领域 之 
一 ， 可 理解 为 根据 特定 的 需要 突出 一 幅 图 像 中 的 茶 些 信息 ， 同 时 削弱 或 
去 除 某 些 不 需要 的 信息 的 处 理 方 法 。 其 主要 目的 是 ， 使 处 理 后 的 图 像 对 
东 种 特定 的 应 用 来 说 ， 比 原始 图 像 更 适用 。 

第 7 章 小 波 变 换 继 第 6 草 之 后 继续 在 频率 域 中 研究 图 像 。 傅 立 叶 变换 
一 直 是 频率 域 图 像 处 理 的 基石 ， 它 能 用 正弦 函数 之 和 表示 任何 分 析 函 
数 ， 而 小 波 变 换 则 基于 一 些 有 限 宽 度 的 基 小 波 ， 这 些小 波 不 仅 在 频率 上 
征 变化 的 ， 而 且 具 有 有 限 的 持续 时 间 。 例 如 ， 对 于 一 张 乐谱 ， 小 波 变换 
不 仅 能 提供 要 演奏 的 音符 ， 而 且说 明了 何 时 演 委 等 细 贡 信息 ， 但 傅立叶 
变换 只 提供 了 音 待 ， 局 部 信息 在 变换 中 丢失 。 

第 8 草图 像 复原 与 图 像 增强 相似 ， 其 目的 也 是 改善 图 像 质 量 。 但 是 
图 像 复原 是 试图 利用 退化 过 程 的 移 验 知识 使 已 被 退化 的 图 像 恢复 本 来 面 
目 ， 而 图 像 增强 是 用 茶 种 试探 的 方式 改善 图 像 质 量 ， 以 适应 人 眼 的 视觉 
与 心理 。 引 起 图 像 退化 的 因 系 包括 由 光学 系统 、 运 动 等 造成 的 图 像 模 
糊 ， 以 及 源 目 电路 和 光学 因素 的 噪声 等 。 图 像 复原 是 基于 图 像 退 化 的 数 
学 模型 ， 复 原 的 方法 也 建立 在 比较 严格 的 数学 推导 上 。 

第 9 章 是 本 书 中 相对 独立 的 一 章 ， 以 介绍 色彩 模型 之 间 的 相互 转 
换 ， 以 及 彩色 图 像 处 理 方面 的 基本 概念 和 基本 方法 为 主 。 随 着 基于 互联 
网 的 图 像 处 理应 用 在 不 断 增 长 ， 彩 色 图 像 处 理 已 经 成 为 一 个 重要 领域 。 



































第 10 一 12 章 〈 形 态 学 处 理 、 边 缘 检测 与 网 像 分 割 、 特 征 提 取 ) 是 从 
单纯 图 像 处 理 同 图 像 识 别 ( 机 器 视觉 ) 的 过 渡 ， 这 一 阶段 的 特点 是 ， 输 
入 是 图 像 ， 输 出 则 是 在 识别 意义 上 我 们 感 兴趣 的 图 像 元 素 。 形 态 学 处 理 
是 提取 图 像 元 素 的 有 力 技 术 ， 它 在 表现 和 摘 述 形状 方面 非常 有 用 ; 分 割 
过 程 则 将 一 幅 图 像 划 分 为 组 成 部 分 或 目标 对 象 ， 研 究 特 征 提 取 则 是 要 将 
前 面 提取 出 来 的 图 像 元 素 或 目标 对 象 表 示 为 适合 计算 机 后 续 处 理 的 数值 
形式 ， 最 终 形成 能 够 直接 供 分 类 器 使 用 的 特征 。 

第 13 章 在 前 面 知 识 的 基础 之 上 ， 引 出 了 机 器 视觉 的 前 导 性 内 容 ， 给 
出 了 解雇 识别 问题 的 一 般 思 路 。 

第 14 一 15 音 〈 人 工 神 经 网 络 、 文 持 同 量 机 ) 介绍 了 两 种 十 分 强大 的 
分 类 技术 ， 并 介绍 了 人 脸 识 别 技术 及 经 典 案 例 应 用 。 

一 一 读者 对 象 

e 具备 必要 的 数学 基础 的 相关 专业 的 本 科 生 、 研 究 生 。 

e 工作 在 图 像 处 理 和 识别 领域 一 线 的 工程 技术 人 员 。 

e 对 于 数字 图 像 处 理 和 机 器 视觉 感 兴趣 的 并 且 具 备 必要 预备 知识 的 
所 有 读者 。 

一 一 在 阅读 本 书 之 前 ， 读 者 最 好 具有 如 下 的 预备 知识 

e 该 者 应 具备 一 定 的 数学 基础 ， 如 高 等 数学 知识 、 少 量 的 线性 代数 
基本 概念 加 上 对 于 概率 理论 主要 思想 的 理解 〈 识 别 部 分 ) 。 

一 一 在 线 文 持 和 读者 反馈 

本 书 所 有 Matlab 实 例 的 源 代码 均 可 在 bbs.book95.com 网 站 的 “ 金 羽 图 
书 与 答疑 板块 ?板块 与 本 书 同名 的 主题 帖子 附件 中 提供 下 载 。 虽 然 本 书 
中 的 所 有 例子 都 已 经 在 windows XP、Windows 2003 和 Windows 7 等 操作 
系统 下 的 Matlab2006 到 MatlabR2011a 的 各 个 版 本 中 测试 通过 ， 但 由 于 交 
稿 时 间 要 求 和 笔者 水 平 的 局 限 ， 也 有 存在 Bug 的 可 能 ， 即 便 正 确 也 很 可 
能 存在 更 加 优化 的 算法 或 更 加 合理 的 程序 结构 ， 如 发 现任 何 上 述 问题 ， 
请 您 不 音 告 知 本 书 的 作者 (aaron@book95.com) ， 以 便 我 们 做 出 改进 。 
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图 像 是 指 能 在 人 的 视觉 系 统 中 产生 视觉 印象 的 客观 对 象 ， 包 括 目 然 
景物 、 担 摄 到 的 图 片 、 用 数学 方法 描述 的 图 形 等 。 图 像 的 要 素 有 几何 要 
素 〈 刻 画 对 象 的 轮廓 、 形 状 等 ) 和 非 几何 要 又 〈 刻 男 对 象 的 颜色 、 材 质 
SE) 

本 章 中 ， 我 们 主要 讲解 数字 图 像 和 数字 图 像 处 理 的 实质 内 容 和 一 般 
步骤 ， 以 及 一 些 后 面 会 经 常 使 用 到 的 基本 概念 。 











1.1 数字 


目 然 界 中 的 图 像 都 是 模拟 量 ， 在 计算 机 普遍 应 用 之 前 ， 电 视 、 电 
影 、 照 相机 等 图 像 记 录 与 传输 设备 部 是 使 用 模拟 信和 与 对 图 像 进 行 处 理 。 
但 是 ， 计 算 机 只 能 处 理 数字 量 ， 而 不 能 直接 处 理 模 拟 图 像 。 所 以 我 们 要 
在 使 用 计算 机 处 理 图 像 之 前 进行 图 像 数 字 化 


1.1.1 什么 是 数字 


简单 地 说 ， 数 字 图 像 就 是 能 够 在 计算 机 上 显示 和 处 理 的 图 像 ， 可 根 
据 其 特性 分 为 两 大 类 一 一 位 图 和 矢量 图 。 位 图 通常 使 用 数字 阵列 来 表 
示 ， 常 见 格式 有 BMP、JPG、GIF 等 ; 秋 量 图 由 秋 量 数据 库 表示 ， 我 们 
接触 最 多 的 就 是 PNG 图 形 。 

提示 

本 书 只 涉及 数字 图 像 中 位 图 图 像 的 处 理 与 识别 ， 如 无 特别 说 明 ， 后 
文 提 到 的 “图 像 ? 和 “数字 图 像 * 都 仅仅 是 指 位 图 图 像 。 一 般 而 言 ， 使 用 数 
字 摄 像 机 或 数字 照相 机 得 到 的 图 像 都 是 位 图 图 像 。 

我 们 可 以 将 一 幅 图 像 视 为 一 个 二 维 函数 f(x, y)， 其 中 x 和 y 是 空间 化 














标 ， 而 在 x 一 y 平 面 中 的 任意 一 对 空间 坐标 (x, y) 上 的 幅 值 f 称 为 该 点 图 像 
的 灰 度 、 亮 度 或 强度 。 此 时 ， 如 果 f、x、y 均 为 非 负 有 限 离散 ， 则 称 该 
图 像 为 数字 图 像 ( 位 图 )。 

一 个 大 小 为 MxN 数 字 图 像 是 由 M 行 N 列 的 有 限 元 系 组 成 的 ， 每 个 元 
素 都 有 特定 的 位 置 和 幅 值 ， 代 表 了 其 所 在 行列 位 置 上 的 图 像 物理 信息 ， 
如 灰 度 和 色彩 等 。 这 些 元 素 称 为 图 像 元 素 或 像素 。 








1.1.2 数字 图 像 的 显示 


不 论 是 CRT 显 示 器 还 是 LCD 显 示 器 ， 都 是 由 许多 点 构成 的 ， 显 示 图 
像 时 这 些 点 对 应 着 图 像 的 像素 ， 称 显示 器 为 位 映像 设备 。 所 谓 位 映像 ， 
就 是 一 个 二 维 的 像素 矩阵 ， 而 位 图 也 就 是 采用 位 映像 方法 显示 和 存储 的 
图 像 。 当 一 幅 数 字 图 像 被 放大 后 就 可 以 明显 地 看 出 图 像 是 由 很 多 方 格 形 
状 的 像素 构成 的 ， 如 图 1.1 所 示 。 








A 图 1.1 位 图 图 像 示例 





1.1.3 数字 图 像 的 分 类 





根据 每 个 像素 所 代表 信息 的 不 同 ， 可 将 图 像 分 为 二 值 图 像 、 灰 度 图 


像 、RGB 图 像 以 及 索引 图 像 等 。 

1. 二 值 图 像 

每 个 像素 只 有 黑 、 白 两 种 颜色 的 图 像 称 为 二 值 图 像 。 在 二 值 图 像 
中 ， 像 素 只 有 0 和 1 两 种 取 值 ， 一 般 用 0 来 表示 黑色 ， 用 1 表示 白色 。 

2， 灰 度 图 像 

在 二 值 图 像 中 进一步 加 入 许多 介 于 黑色 与 白色 之 间 的 颜色 深度 ， 就 
构成 了 灰 度 图 像 。 这 类 图 像 通 常 显 示 为 从 最 暗黑 色 到 最 亮 的 白色 的 灰 
度 ， 每 种 灰 度 〈 颜 色 深 度 ) 称 为 一 个 灰 度 级 ， 通 常用 L 表 示 。 在 灰 度 图 
像 中 ， 像 素 可 以 取 0~L-1 之 间 的 整数 值 ， 根 据 保存 灰 度 数值 所 使 用 的 数 
据 类 型 不 同 ， 可 能 有 256 种 取 值 或 者 说 2k 种 取 值 ， 当 k=1 时 即 退化 为 二 值 
图 像 。 

3. RGB 图 像 

众所周知 ， 自 然 界 中 几乎 所 有 颜色 都 可 以 由 红 〈Red,R) 、 绿 
(Green, G) 、 葛 (Blue, B) 3 种 颜色 组 合 而 成 ， 通 常 称 它们 为 RGB 三 
原色 。 计 算 机 显示 彩色 图 像 时 采用 最 多 的 就 是 RGB 模型 ， 对 于 每 个 像 
素 ， 通 过 控制 R、G、B 三 原色 的 合成 比例 决定 该 像素 的 最 终 显 示 颜 色 。 

对 于 三 原色 RGB 中 的 每 一 种 颜色 ， 可 以 像 灰 度 图 那样 使 用 个 等 级 
来 表示 含有 这 种 颜色 成 分 的 多 少 。 例 如 对 于 含有 256 个 等 级 的 红色 ，0 表 
示 不 含 红 色 成 份 ，255 表 示 含 有 100% 的 红色 成 分 。 同 样 ， 绿 色 和 蓝 色 也 
可 以 划分 为 256 个 等 级 。 这 样 每 种 原色 可 以 用 8 位 二 进 制 数据 表示 ， 于 是 
三 原色 总 共 需 要 24 位 二 进 制 数 ， 这 样 能 够 表示 出 的 颜色 种 类 数目 为 
256x256x256=2%4， 大 约 有 1 600 万 种 ， 已 经 远 远 超过 普通 人 所 能 分 辨 出 
的 颜色 数目 。 

RGB 颜色 代码 可 以 使 用 十 六 进 制 数 减少 书写 长 度 ， 按 照 两 位 一 组 的 
方式 依次 书写 R、G、B 三 种 颜色 的 级 别 。 例 如 ，0xFF0000 代 表 纯 红色 ， 
0x00FF00 代 表 纯 绿色 ， 而 0x00FFFF 是 青色 (这 是 绿色 和 蓝 色 的 加 
和 ) 。 当 RGB 三 种 颜色 的 浓度 一 臻 时， 所 表示 的 颜色 就 退化 为 灰 度 ， 例 
































如 0 X808080 就 是 50% 的 灰色 ，0x000000 为 黑色 ， 而 0xXFEFFFFF 为 白色 。 
常见 颜色 的 RGB 组 合 值 如 表 1.1 所 示 。 


表 1.1 常见 颜色 的 RGB 组 合 值 








颜 色 B 
红 (0xFF0000) 
蓝 (0x00FF00) 
续 表 
颜 色 B 
绿 (0x0000FF) 255 
紫 (OxFFOOFF) ls | | 
青 (OxOOFFFF) 255 255 
白 (OXFFFFFF) 255 255 


未 经 压缩 的 原始 BMP 文件 就 是 使 用 RGB 标准 给 出 的 3 个 数值 来 存储 
图 像 数 据 的 ， 称 为 RGB 图 像 。 在 RGB 图 像 中 每 个 像素 都 是 用 24 位 二 进 
制 数 表示 ， 故 也 称 为 24 位 真 彩色 图 像 。 

4. 索引 图 像 

如 果 对 每 个 像素 都 直接 使 用 24 位 二 进 制 数 表 示 ， 图 像 文 件 的 体积 将 
变 得 十 分 庞大 。 来 看 一 个 例子 ， 对 一 个 长 、 宽 各 为 200 像 素 ， 颜 色 数 为 
16 的 彩色 图 像 ， 每 个 像素 都 用 RGB 3 个 分 量 表示 。 这 样 每 个 像素 由 3 字 
节 表 示 ， 整 个 图 像 就 是 200x200x3=120KB。 这 种 完全 未 经 压缩 的 表示 
方式 浪费 了 大 量 的 存储 空间 。 下 面 简单 介绍 男 一 种 更 节省 空间 的 存储 方 
式 : 索引 图 像 。 

同样 还 是 对 200x200 像 素 的 16 色 图 像 ， 由 于 这 张 图片 中 最 多 只 有 16 











种 颜色 ， 那 么 可 以 用 一 张 颜色 表 〈16x3 的 二 维 数组 ) 保存 这 16 种 颜色 对 
应 的 RGB 值 ， 在 表示 图 像 的 矩阵 中 使 用 那 16 种 颜色 在 颜色 表 中 的 索引 
〈 偏 移 量 ) 作为 数据 写 入 相应 的 行列 位 置 。 例 如 ， 颜 色 表 中 第 3 个 元 素 
为 0xKAA1111， 那 么 在 图 像 中 所 有 颜色 为 0xKAA1111 的 像素 均 可 以 由 3- 
1=2 表 示 (颜色 表 索 引 下 标 从 0 开始 ) 。 这 样 一 来 ， 每 一 个 像素 所 需要 使 
用 的 二 进 制 数 就 仅仅 为 4 位 〈0.5 字 节 ) ， 从 而 整个 图 像 只 需要 
200x200x0.5=20KB 就 可 以 存储 ， 而 不 会 影响 显示 质量 。 

上 文 所 指 的 颜色 表 就 是 常 说 的 调 色 板 〈Palette) ， 另 一 种 说 法 叫做 
颜色 查找 表 (LUT: Look Up Table) 。Windows 位 图 中 应 用 到 了 调 色 
板 技术 。 其 实 不 仅 是 Windows 位 图 ， 许 多 其 他 的 图 像 文件 格式 如 
PCX、TIF、GIF 都 应 用 了 这 种 技术 。 

在 实际 应 用 中 ， 调 色 板 中 通常 只 有 少 于 256 种 颜色 。 在 使 用 许多 图 
像 编辑 工具 生成 或 者 编辑 GIF 文 件 的 时 候 ， 常 常会 提示 用 户 选择 文件 包 
含 的 颜色 数目 。 当 选择 较 低 的 颜色 数目 时 ， 将 会 有 效 地 降低 图 像 文 件 的 
体积 ， 但 也 会 一 定 程度 上 降低 图 像 的 质量 。 

使 用 调 色 板 技术 可 以 减 小 图 像 文件 体积 的 条 件 是 图 像 的 像素 数目 相 
对 较 多 ， 而 颜色 种 类 相对 较 少 。 如 果 一 个 图 像 中 用 到 了 全 部 的 24 位 真 彩 
色 ， 对 其 使 用 颜色 查找 表 技 术 是 完全 没有 意义 的 ， 单 纯 从 颜色 角度 对 其 
进行 压缩 是 不 可 能 的 。 



































1.1.4 数字 和 实质 


实际 上 ，1.1.1 小 节 中 对 于 数字 图 像 fx, y) 的 定义 仅 适 用 于 最 为 一 般 
的 情况 ， 即 静态 的 灰 度 图 像 。 更 严格 地 说 ， 数 字 图 像 可 以 是 两 个 变量 
(对 于 静止 图 像 ，static image) 或 3 个 变量 (对 于 动态 画面 ，video 
sequence) 的 离散 函数 。 在 静态 图 像 的 情况 下 是 f (x, y)， 而 如 果 是 动态 
画面 ， 则 还 需要 时 间 参 数 t， 即 f (x, y,D; 函数 值 可 能 是 一 个 数值 (对 于 











灰 度 网 像 ) ， 也 可 能 是 一 个 向 量 〈 对 于 彩色 网 像 ) 。 

提示 

静态 的 灰 度 图 像 是 本 书 研究 的 主要 对 象 ， 对 于 函数 值 为 向 量 的 情况 
会 在 第 9 章 彩色 图 像 处 理 中 痢 述 。 

图 像 处 理 是 一 个 涉及 诸多 研究 领域 的 交叉 学 科 ， 下 面 就 让 我 们 从 不 
同 的 角度 来 审视 数字 图 像 。 

e 从 线性 代数 和 矩阵 论 的 角度 ， 数 字 图 像 是 由 图 像 信 息 组 成 的 二 维 
和 矩 阵 ， 和 矩阵 的 每 个 元 素 代表 对 应 位 置 上 的 图 像 亮 度 和 /或 色彩 信息 。 当 
然 ， 这 个 二 维和 矩阵 在 数据 表示 和 存储 上 可 能 不 是 二 维 的 ， 这 是 因为 每 个 
单位 位 置 的 图 像 信息 可 能 需要 不 只 一 个 数值 来 表示 ， 这 样 可 能 需要 一 个 
三 维和 矩阵 来 对 其 进行 表示 (参见 2.2 节 关于 Matlab 中 RGB 图 像 表 示 的 介 
绍 ) 。 

e 由 于 随机 变化 和 噪声 的 原因 ， 图 像 在 本 质 上 是 统计 性 的 。 因 而 有 
时 将 图 像 函 数 作为 随机 过 程 的 实现 来 观察 存在 其 优越 性 。 这 时 有 关 图 像 
言 息 量 和 克 余 的 问题 可 以 用 概率 分 布 和 相关 函数 来 描述 和 考虑 。 例 如 ， 
如 果 知 道 概率 分 布 ， 可 以 用 (Entropy) HB 来 度量 图 像 的 信息 量 ， 这 


是 信息 论 中 一 个 重要 的 思想 。 






































【 注 】 出 和 〈Entropy) : 人 是 信息 论 中 用 于 度量 信息 量 的 一 个 概 
念 。 一 个 系统 越 是 有 序 ， 信 息 燃 就 越 低 ;， 反之， 一 个 系统 越 是 混乱 ， 信 
恩 开 越 高 。 所 以 ， 信 息 炉 也 可 以 说 是 系统 有 序 化 程度 的 一 个 度量。 





e 从 线性 系统 的 角度 考虑 ， 图 像 及 其 处 理 也 可 以 表示 为 用 狄 拉 元 冲 
激 公 式 表 达 的 点 展开 函数 的 合 加 ， 在 使 用 这 种 方式 对 图 像 进行 表示 时 ， 
可 以 采用 成 熟 的 线性 系统 理论 研究 。 在 大 多 数 时 候 ， 我 们 都 考虑 使 用 线 
性 系统 近似 的 方式 对 图 像 进行 近似 处 理 以 简化 算法 。 虽 然 实际 的 图 像 并 
不 是 线性 的 ， 图 像 坐标 和 图 像 函 数 的 取 值 都 是 有 限 的 和 非 连续 的 。 





1.1.5 数字 表示 





为 了 表述 像素 之 间 的 相对 和 绝对 位 置 ， 我 们 通常 还 需要 对 像素 的 位 
置 进行 坐标 约定 。 本 书 中 所 使 用 的 坐标 约定 如 图 1.2 所 示 。 但 在 Matlab 中 
坐标 的 约定 会 有 变化 ， 有 具体 请 参见 2.1.5 小 节 。 
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A 图 1.2 数字 图 像 的 坐标 约定 


在 这 之 后 ， 一 幅 物 理 图 像 束 被 转化 成 了 数字 甜 阵 ， 从 而 成 为 计算 机 
能 够 处 理 的 对 象 了 了。 数字 图 像 { 的 矩阵 的 表示 如 下 。 


f(0,0) f(0,N-1) 


名人 (1-1) 


f(M -1,0) … CNM -LN-D 


有 时 也 可 以 使 用 传统 矩阵 表示 法 来 表示 数字 图 像 和 像素 。 


CC0.0 We U0,N-l 


UM-1.0 ee UM-1.N-l 


其 中 行列 M 行 N 列 〉 必 须 为 正 整 数 ， 而 离散 灰 度 级 数目 LL 一般 为 2 
的 k 次 需 ，k 为 整数 〈 因 为 使 用 二 进 制 整数 值 表 示 灰 度 值 ) ， 岁 像 的 动态 
范围 为 [0,L-1]， 那 么 图 像 存 储 所 需 的 比特 数 为 b=MxNxk。 注 意 到 在 算 阵 
f(y, XxX》 中 ， 一 般 习 惯 于 先行 下 标 ， 后 列 下 标的 表示 方法 ， 因 此 这 里 先 
是 纵 坐 标 y《〈 对 应 行 ) ， 然 后 才 是 横 坐 标 X《〈 对 应 列 ) 。 

而 有 些 图 像 矩 阵 中 ， 很 多 像素 的 值 都 是 相同 的 。 例 如 一 个 纯 黑 背景 
上 使 用 不 同 灰 度 义 勒 的 图 像 ， 大 多 数 像 系 的 值 都 会 是 0。 这 种 矩阵 称 为 
稀疏 阜 阵 〈Sparse Matrix) ， 可 以 通过 简单 描述 非 零 元 素 的 值 和 位 置 来 
代 蔡 大 量 地 写 入 0 元 素 。 这 时 存储 图 像 需 要 的 比特 数 可 能 大 大 减少 。 

















1. 图 像 的 空间 分 辩 率 
图 像 的 空间 分 辨 率 (Spatial Resolution ) 是 指 图 像 中 每 单位 长 度 所 





包 售 的 像素 或 点 的 数目 ， 第 以 像素 /英寸 (pixels per inch, ppi) 为 单位 来 
表示 。 如 72ppi 表 示 图 像 中 每 英寸 包含 72 个 像素 或 点 。 分 辨 率 越 高 ， 图 
像 将 越 清 晰 ， 图 像 文件 所 需 的 磁盘 空间 也 越 大 ， 编 辑 和 处 理 所 需 的 时 间 
也 越 长 。 

像素 越 小 ， 单 位 长 度 所 包含 的 像素 数据 就 越 多 ， 分 辨 率 也 就 越 高 ， 
但 同样 物理 大 小 范围 内 所 对 应 图 像 的 尺寸 也 会 越 大 ， 存 储 图 像 所 需要 的 
字 节 数 也 越 多 。 因 而 ， 在 图 像 的 放大 缩小 算法 中 ， 放 大 就 是 对 图 像 的 过 
采样 ， 缩 小 是 对 图 像 的 太 采样， 这 些 会 在 4.5 丰 网 像 缩放 中 进一步 介 
绍 。 


一 般 在 没有 必要 对 涉及 像素 的 物理 分 辨 紊 进行 实际 度量 时 ， 通 常会 











称 一 幅 大 小 为 MxN 的 数字 图 像 的 空间 分 辨 紊 为 MxN 像 素 。 

图 1.3 所 示 为 同一 幅 图像 在 不 同 的 空间 分 辩 率 下 呈现 出 的 不 同 效 
朵 。 妆 高 分 辨识 下 的 图 像 以 低 分 辩 京 表示 时 ， 在 同等 的 显示 或 者 打印 输 
出 条 件 下 ， 图 像 的 尺寸 变 小 ， 细 节 变 得 不 明显 ， 而 当 将 低 分 辨 率 下 的 图 
像 放大 时 ， 则 会 导致 图 像 的 细节 仍然 模糊 ， 只 是 斥 寸 变 大 。 这 是 因 为 缩 
小 的 图 像 已 经 丢失 了 大 量 的 信息 ， 在 放大 图 像 时 只 能 通过 复制 行列 的 插 
值 方 法 来 确定 新 增 像素 的 取 值 。 
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A 图 1.3 图 像 的 空间 分 辨 率 (一 幅 分 辨 率 为 256x256 的 图 像 逐 次 减少 至 
8x8 的 分 辩 率 ) 


2. 图 像 的 灰 度 级 /辐射 计量 分 辩 率 

在 数字 图 像 处 理 中 ， 灰 度 级 分 辨 率 又 叫 色 阶 ， 是 指 图 像 中 可 分 辩 的 
灰 度 级 数目 ， 即 前 文 提 到 的 灰 度 级 数目 站 ， 它 与 存储 灰 度 级 别 所 使 用 的 
数据 类 型 有 关 。 由 于 灰 度 级 度量 的 是 投射 到 传感器 上 光 辐 射 值 的 强度 ， 
所 以 灰 度 级 分 辨 率 也 叫 辐射 计量 分 辩 率 (Radiometric Resolution ) 。 

随 着 图 像 的 灰 度 级 分 辨 率 逐 渐 降 低 ， 图 像 中 包含 的 颜色 数目 变 少 ， 
从 而 在 颜色 的 角度 造成 图 像 信 息 受 损 ， 同 样 使 图 像 细节 表达 受到 了 一 定 











影响 ， 如 图 1.4 所 示 。 








A 图 1.4 图 像 的 灰 度 级 分 辨 率 (分别 具有 256、32、16、8、4 和 2 个 灰 度 
级 的 一 幅 图 像 ) 


图 像 处 理 、 图 像 分 析 和 图 像 识别 是 认 知 科学 与 计算 机 科学 中 的 一 个 
令 人 兴奋 的 活跃 分 文 。 从 1970 年 这 个 领域 经 历 了 人 们 对 其 兴趣 的 爆炸 性 
增长 以 来 ， 到 20 世 纪 末 逐渐 步 入 成 熟 。 其 中 ， 遥 感 、 技 术 诊断 、 智 能 车 
目 主导 航 、 医 学 平面 和 立体 成 像 以 及 目 动 监视 领域 是 发 展 最 快 的 一 些 方 
问 。 这 种 进展 最 集中 地 体现 在 市 场 上 多 种 应 用 这 类 技术 的 产品 的 纷纷 涌 











现 。 事 实 上 ， 从 数字 图 像 处 理 到 数字 图 像 分 析 ， 再 发 展 到 最 前 沿 的 图 像 
识别 技术 ， 其 核心 都 是 对 数字 图 像 中 所 含有 的 信息 的 提取 及 与 其 相关 的 
各 种 辅助 过 程 。 

1. 数字 图 像 处 理 

数字 图 像 处 理 (Digital Image Processing) 就 是 指使 用 电子 计算 机 
对 量化 的 数字 图 像 进行 处 理 ， 有 具体 地 说 就 是 通过 对 图 像 进行 各 种 加 工 来 
改善 图 像 的 外 观 ， 是 对 图 像 的 修改 和 增强 。 

图 像 处 理 的 输入 是 从 传感器 或 其 他 来 源 获取 的 原始 的 数字 图 像 ， 输 
出 是 经 过 处 理 后 的 输出 图 像 。 处 理 的 目的 可 能 是 使 输出 图 像 具 有 更 好 的 
效果 ， 以 便于 人 的 观察 ， 也 可 能 是 为 图 像 分 析 和 识别 做 准备 ， 此 时 的 图 
像 处 理 是 作为 一 种 预 处 理 步 又， 输出 图 像 将 进一步 供 其 他 图 像 分 析 、 识 
别 算法 使 用 。 

2. 数字 图 像 分 析 

数字 图 像 分 析 (Digital Image Analyzing) 是 指 对 图 像 中 感 兴趣 的 
目标 进行 检测 和 测量 ， 以 获得 客观 的 信息 。 数 字 图 像 分 析 通 党 是 指 将 
一 幅 图 像 转化 为 男 一 种 非 图 像 的 抽象 形式 ， 如 图 像 中 某 物 体 与 测量 者 的 
距离 以 及 目标 对 象 的 计数 或 其 尺寸 等 。 这 一 概念 的 外 延 包 括 边缘 检测 和 
图 像 分 割 、 特 征 提 取 以 及 几何 测量 与 计数 每 。 

图 像 分 析 的 输入 是 经 过 处 理 的 数字 图 像 ， 其 输出 通常 不 再 是 数字 图 
像 ， 而 是 一 系列 与 目标 相关 的 图 像 特 征 〈( 目 标的 描述 ) ， 如 目标 的 长 
度 、 颜 色 、 曲 率 和 个 数 等 。 

3. 数字 图 像 识别 

数字 图 像 识 别 (Digital Image Recognition ) 主要 研究 图 像 中 各 日 
标的 性 质 和 相互 关系， 识别 出 目标 对 象 的 类 别 ， 从 而 理解 图 像 的 含 
义 。 这 往往 吉 括 了 使 用 数字 图 像 处 理 技术 的 很 多 应 用 项 目 ， 如 光学 字符 
识别 OCR) 、 产 品质 量 检验 、 人 脸 识 别 、 上 自动 驾驶 、 医 学 图 像 和 地 有 摇 
图 像 的 自动 判读 理解 等 。 











图 像 识别 是 图 像 分 析 的 延伸 ， 它 根据 从 图 像 分 析 中 得 到 的 相关 描述 
特征 )》 对 目标 进行 归 类 ， 输 出 我 们 感 兴趣 的 目标 类 别 标号 信息 〈 符 
号 ) 。 

忆 而 言 之 ， 从 图 像 处 理 到 图 像 分 析 再 到 图 像 识别 这 个 过 程 ， 是 一 个 
将 所 含 信息 抽象 化 ， 委 试 降低 信息 烂 ， 提 炼 有 效 数据 的 过 程 ， 如 图 1.5 
所 示 。 








A 图 1.5 数字 图 像 处 理 、 分 析 和 识别 的 关系 


从 信息 论 的 角度 上 说 ， 图 像 应 当 是 物体 所 含 信息 的 一 个 概括 ， 而 数 
字 图 像 处 理 侧 重 于 将 这 些 概括 的 信息 进行 变换 ， 例 如 升 蜗 或 降低 炳 值 。 
数字 图 像 分 析 则 是 将 这 些 信息 抽取 出 来 以 供 其 他 过 程 调用 。 当 然 ， 在 不 
太 严 格 时 ， 数 字 图 像 处 理 也 可 以 兼 指 图 像 处 理 和 分 析 。 

您 或 许 也 昕 过 男 一 个 概念 ， 计 算 机 图 形 学 (Computer 
Graphics) 。 此 概念 与 数字 图 像 分 析 大 臻 相反 ， 它 是 一 个 对 由 概念 或 数 
学 表述 的 物体 图 像 进行 处 理 和 显示 的 过 程 。 





如 今 ， 数 字 图 像 处 理 与 机 器 视觉 的 应 用 越 来 越 广泛 ， 已 经 渗透 到 国 


家 安全 、 航 空 航天 、 工 业 控制 、 医 疗 保健 等 各 个 领域 乃至 我 们 的 日 第 生 
活 和 娱乐 当中 ， 在 国民 经 济 中 发 挥 着 举足轻重 的 作用 。 它 的 一 些 典型 的 
应 用 如 表 1.2 所 示 。 


表 1.2 图 像 处 理 与 识别 的 典型 应 用 


相关 领域 典型 应 用 
安全 监控 指纹 验证 ， 基 于 人 脸 识别 的 门禁 系统 
[ 业 控制 产品 无 损 检测 ， 商 品 自动 分 类 
医疗 保健 X 光 照片 增强 ，CT， 核 磁 共 振 ， 病 灶 自 动 检测 
生活 娱乐 基于 表情 识别 的 笑脸 自动 检测 ， 汽 车 自动 驾驶 ， 手 写字 符 识 别 


下 面 结合 2 个 典型 的 应 用 来 说 明 。 

1. 图 像 处 理 的 典型 案例 一 一 X 光 照片 的 增强 

图 1.6 所 示 为 两 幅 图 片 ，(a) 是 一 幅 直 接 拍摄 未 经 处 理 的 X 光 照 
片 ， 对 比 度 较 低 ， 图 像 细 节 难 以 辨识 ，〈b) 中 呈现 了 〈a) 经 过 简单 的 
增强 处 理 后 的 效果 ， 图 像 较为 清晰 ， 可 以 有 效 地 指导 诊断 和 治疗 。 从 中 
读者 应 该 可 以 看 出 图 像 处 理 技术 在 辅助 医学 成 像 上 的 重要 作用 。 





全 


(a) 未 经 处 理 的 X 光 照片 (b) 经 过 图 像 增 强 的 X 光照 片 





A 图 1.6 图 像 处 理 前 后 的 效果 对 比 


2. 图像 识别 的 典型 案例 一 人 脸 识 别 


人 脸 识别 技术 就 是 以 计算 机 为 辅助 手段 ， 从 静态 图 像 或 动态 图 像 中 
识别 人 脸 。 问 题 一 般 可 以 描述 为 给 定 一 个 场景 的 静态 或 视频 图 像 ， 利 用 
已 经 存储 的 人 脸 数 据 库 确认 场景 中 的 一 个 或 多 个 人 。 一般 来 说 ， 人 上 脸 识 
别 研究 分 为 3 个 部 分 : 从 具有 复杂 背景 的 场景 中 检测 并 分 离 出 人 脸 所 在 
的 区 域 ， 抽 取 人 上 脸 识别 特征 ;然后 进行 匹配 和 识别 。 

虽然 人 类 从 复杂 背景 中 识别 出 人 脸 及 表情 相当 容易 ， 但 人 脸 的 自动 
机 器 识别 却 是 一 个 极 具 挑战 性 的 课题 。 它 跨越 了 模式 识别 、 图 像 处 理 、 
计算 机 视觉 以 及 神经 生理 学 、 心 理学 等 诸多 研究 领域 。 

如 同人 的 指纹 一 样 ， 人 脸 也 具有 唯一 性 ， 可 用 来 鉴别 一 个 人 的 号 
份 ， 人 脸 识 别 技术 在 商业 、 法 律 和 其 他 领域 有 着 广泛 的 应 用 。 目 前 ， 人 
脸 识 别 已 成 为 法 律 部 门 打 击 犯罪 的 有 力 工 具 ， 在 毒品 跟踪 、 反 勾 怖 活动 
等 监控 中 有 着 很 大 的 应 用 价值 。 此 外 ， 人 脸 识 别 的 商业 应 用 价值 也 正在 
日 益 增 长 ， 主 要 是 信用 卡 或 者 自动 取 球 机 的 个 人 身份 核对 。 与 利用 指 
纹 、 手 掌 、 视 网 膜 、 虹 膜 等 其 他 人 体 生 物 特征 进行 个 人 身份 鉴别 的 方法 
相 比 ， 人 脸 识 别 具 有 直接 、 友 好 、 方 便 的 特点 ， 特 别 是 对 于 个 人 来 说 没 
有 任何 心理 障碍 。 

图 1.7 所 示 为 本 书后 面 综 合 案例 中 实现 的 一 个 基于 主 成 分 分 析 
(Principal Component Analysis, PCA)〉 和 支持 问 量 机 (Support Vector 
Machine, SVM) 的 人 脸 识 别 系统 的 简单 界面 。 























1 Figure 1: 基于 PCA 和 SYE 的 人 脸 识别 系统 
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总 体 来 说 ， 数 字 图 像 处 理 与 识别 包括 以 下 几 项 内 容 。 

图 像 的 点 运算 通过 灰 度 变换 可 以 有 效 改善 图 像 的 外 观 ， 并 在 一 定 程 
度 上 实现 图 像 的 灰 度 归 一 化 。 本 书 第 3 章 中 将 介绍 多 种 基于 图 像 点 运算 
的 处 理 方法 ， 如 图 像 拉 伸 、 对 比 度 增 强 、 直 方 图 均衡 以 及 直方 图 匹配 
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图 像 的 几何 变换 主要 应 用 在 图 像 的 几何 归 一 化 和 图 像 校准 当中 ， 将 
在 本 书 第 4 章 中 进行 介绍 。 总 体 而 言 ， 第 3、4 两 章 内 容 大 多 作为 图 像 的 
前 期 预 处 理工 作 必要 的 一 部 分 ， 是 图 像 处 理 中 相对 固定 和 程式 化 的 内 





容 。 

图 像 增强 作为 数字 图 像 处 理 中 相对 简单 却 最 具 艺 术 性 的 领域 之 一 ， 
可 理解 为 根据 特定 的 需要 突出 一 幅 图 像 中 的 茶 些 信 息 ， 同 时 削弱 或 去 除 
东 些 不 需要 的 信息 的 处 理 方法 。 其 主要 目的 是 使 处 理 后 的 图 像 对 茶 种 特 
定 的 应 用 来 说 ， 比 原始 图 像 更 适用 。 作 为 图 像 处 理 中 一 个 相当 主观 的 领 
域 《 增 强 的 目的 是 可 以 让 人 更 好 地 观察 和 认 知 图 像 )， 图 像 增 强 是 以 下 
多 种 图 像 处 理 方法 的 前 提 与 基础 ， 也 是 在 图 像 获取 后 的 先期 步骤 。 本 书 
第 5 一 6 草 分 别 从 空间 域 和 频率 域 两 个 角度 去 考量 图 像 增强 的 各 个 主要 方 
面 。 

小 波 变 换 伴随 着 人 们 对 图 像 压缩 、 边 缘 和 特征 检测 以 及 纹理 分 析 的 
需求 的 提高 应 运 而 生 。 传 立 叶 变换 一 直 是 频率 域 图 像 处 理 的 基石 ， 它 能 
用 正弦 函数 之 和 表示 任何 分 析 函 数 ， 而 小 波 变换 则 基于 一 些 有 限 宽 度 的 
基 小 波 ， 这 些小 波 不 仅 在 频率 上 是 变化 的 ， 而 且 具 有 有 限 的 持续 时 间 。 
例如 对 于 一 张 乐谱 ， 小 波 变 换 不 仅 能 提供 要 演奏 的 首 符 ， 而 且说 明了 何 
时 演奏 等 细节 信息 ， 但 是 傅立叶 变换 只 提供 了 首 符 ， 局 部 信息 在 变换 中 
丢失。 本 书 将 在 第 7 章 中 讨论 小 波 变 换 。 

图 像 复 原 与 图 像 增强 相似 ， 其 目的 也 是 改善 图 像 质 量 。 但 是 图 像 复 
原 是 试图 利用 退化 过 程 的 先 验 知 识 使 已 被 退化 的 图 像 恢 复 本 来 面目 ， 而 
图 像 增 强 是 用 菏 种 试探 的 方式 改善 图 像 质 量 ， 以 适应 人 眼 的 视觉 与 心 
理 。 引 起 图 像 退 化 的 因素 包括 由 光学 系统 、 运 动 等 造成 的 图 像 模 糊 ， 以 
及 源 自 电路 和 光学 因素 的 噪声 等 。 图 像 复原 是 基于 图 像 退化 的 数学 模 
型 ， 复 原 的 方法 也 建立 在 比较 严格 的 数学 推导 上 。 本 书 第 8 章 介绍 图 像 
复原 。 

彩色 图 像 处 理 实际 上 是 从 图 像 的 类 型 分 类 ， 主 要 包括 对 全 彩 图 像 的 
处 理 ， 也 包括 灰 度 图 像 的 伪 彩 色 化 。 彩 色 图 像 处 理 相 对 二 值 图 像 和 灰 度 
图 像 更 为 复杂 ， 我 们 会 在 第 9 章 中 简要 前述 这 方面 的 基础 知识 。 

形态 学 图 像 处 理 是 一 种 将 数学 形态 学 推广 应 用 于 图 像 处 理 领域 的 新 






































方法 ， 是 一 种 基于 物体 自然 形态 的 图 像 处 理 分 析 方 法 。 而 形态 学 的 概念 
最 早 来 源 于 生物 学 ， 是 一 门生 物 学 中 研究 动物 和 植物 结构 的 一 个 分 文科 
学 。 数 学 形态 学 〈 也 称 图 像 代 数 ) 则 是 一 种 以 形态 为 基础 对 图 像 进行 分 
析 的 数学 工具 ， 其 基本 思想 是 用 具有 一 定形 态 的 结构 元 素 去 度量 和 提取 
图 像 中 的 对 应 形状 以 达到 对 图 像 分 析 和 识别 的 目的 。 图 像 形态 学 往往 用 
于 边界 提取 、 区 域 填 序 、 连 通 分 量 的 提取 、 吓 壳 、 细 化 、 像 素 化 等 图 像 
操作 。 本 书 第 10 章 专门 介绍 形态 学 图 像 处 理 的 方法 与 基本 应 用 ， 这 一 章 
将 是 我 们 从 图 像 处 理 到 图 像 特征 处 理 的 开始 。 

图 像 分 割 〈Image Division ) 是 指 将 一 幅 图 像 分 解 为 天干 互 不 交 鞋 
区 域 的 过 程 ， 分 割 出 的 区 域 需要 同时 满足 均 勾 性 和 连通 性 的 条 件 。 目 标 
的 表示 与 摘 述 是 指 用 组 成 目标 区 域 的 像素 或 区 域 边界 的 像素 标 出 这 一 目 
标 ， 并 且 对 目标 进行 抽象 描述 ， 使 计算 机 能 充分 利用 所 获得 的 处 理 分 割 
结果 。 实 际 上 ， 表 达 和 描述 的 联系 是 十 分 紧密 的 ， 表 达 的 方法 限制 了 摘 
述 的 精确 性 ， 而 只 有 通过 对 目标 的 描述 ， 各 种 表达 方法 才 有 意义 。 

特征 提取 (Feature Extraction) 指 的 是 进一步 处 理 之 前 得 到 的 图 
像 区 域 和 边缘 ， 使 其 成 为 一 种 更 适合 于 计算 机 处 理 的 形式 。 为 了 使 计算 
机 能 够 “理解 ”图像 ， 从 而 具有 真正 意义 上 的 “视觉 >， 我 们 研究 如 何 从 图 
像 中 提取 有 用 的 数据 或 信息 ， 得 到 图 像 的 “ 非 图 像 ” 的 表示 或 描述 ， 如 数 
值 、 问 量 和 符号 等 ， 这 一 过 程 就 是 特征 提取 ， 而 提取 出 来 的 这 些 “ 非 图 
像 ” 的 表示 或 朱 述 惑 是 特征 。 有 了 这 些 数值 或 癌 量 形式 特征 我 们 束 可 以 
通过 训练 过 程 教 会 计算 机 如 何 懂得 这 些 特 征 ， 从 而 使 计算 机 具有 了 识别 
图 像 的 本 领 。 常 用 的 图 像 特征 有 纹理 特征 、 形 状 特征 、 空 间 关 系 特征 
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对 象 识 别 (Object Recognition & Identification ) 一般 是 指 利 用 前 
一 步 从 数字 图 像 中 提取 出 的 特征 问 量 进行 分 类 和 理解 的 过 程 ， 这 涉及 计 
算 机 技术 、 模 式 识 别 、 人 工 智 能 等 多 方面 的 知识 。 这 一 步骤 是 建立 在 前 
面 诸多 步骤 的 基础 上 的 ， 用 以 同上 层 控制 算法 提供 最 终 所 需 的 数据 或 直 





接 报 告 识别 结果 。 事 实 上 ， 对 象 识别 已 经 上 升 到 了 机 融 视 觉 的 层面 上 。 
在 笔者 曾 参与 的 多 个 项 目 中 ， 对 象 识 别 都 被 作为 答 代 传统 图 像 处 理 手 段 
的 方式 ， 应 用 在 人 脸 识别 、 表 情 识别 等 需求 中 。 

经 过 上 述 处 理 步 又 ， 最 初 的 一 幅 原 始 的 、 可 能 存在 干扰 和 缺损 的 图 
像 就 变 成 了 其 他 控制 算法 需要 的 信息 ， 从 而 实现 了 图 像 理解 的 最 终 目 
的 。 以 上 概括 了 数字 图 像 处 理 的 基本 顺序 ， 但 不 是 每 个 图 像 处 理 系 统 都 
一 定 需要 进行 所 有 这 些 步 又 。 事 实 上 ， 很 多 图 像 处 理 系 统 并 不 需要 处 理 
彩色 图 像 ， 或 者 不 需要 进行 图 像 复 原 。 在 实际 的 图 像 处 理 系统 设计 中 ， 
我 们 应 当 根 据 实际 需要 决定 采用 哪些 步骤 和 模块 。 











1.3 数字 理 的 预备 知识 





数字 图 像 是 由 一 组 具有 一 定 的 空间 位 置 关 系 的 像素 组 成 的 ， 因 而 具 
有 一 些 度量 和 拓扑 性 质 。 理 解 像 素 间 的 关系 是 学 习 图 像 处 理 的 必要 准 
备 ， 这 主要 包括 相 邻 像 素 、 邻 接 性 、 连 通 性 、 区 域 、 边 界 的 概念 ， 以 及 


今后 要 用 到 的 一 些 常 见 距离 度量 方法 。 另 外 1.3.3 小 节 还 将 简单 介绍 几 种 
基本 的 图 像 操 作 。 








为 理解 这 些 概 念 ， 需 要 首先 了 解 相 邻 像 系 的 概 仿 。 依 据 标准 的 不 
同 ， 我 们 可 以 关注 像素 P 的 4 邻 域 和 8 邻 域 ， 如 图 1.8 所 示 。 





PP 的 4 邻 域 Ns(P) PP 的 8 邻 域 Ne(P) P 的 对 角 邻 域 Np(P) 


A 图 1.8 P 的 各 种 邻 域 


1. 邻接 性 

定义 V 是 用 于 决定 邻接 性 (Adjacency) 的 灰 度 值 集合 ， 它 是 一 种 
相似 性 的 度量 ， 用 于 确定 所 需 判 断 邻 接 性 的 像素 之 间 的 相似 程度 。 例 如 
在 二 值 图 像 中 ， 如 果 我 们 认为 只 有 灰 度 值 为 1 的 像素 是 相似 的 ， 则 即 V= 
{1}， 当 然 相似 性 的 规定 共有 主观 标准 ， 因 此 也 可 以 认为 V={0，1}， 此 
时 邻接 性 完全 由 位 置 决 定 ， 而 对 于 灰 度 图 像 ， 这 个 集合 中 则 很 可 能 包含 
更 多 的 元 素 。 此 外 ， 定 义 对 角 邻 域 np(P) 为 8- 邻 域 中 不 属于 4- 邻 域 的 部 分 
( 见 图 1.8) ， 那 么 : 

e 4 邻接 〈4-Neighbor) : 如 果 QEn4P)， 则 称 具 有 V 中 数值 的 两 个 
像 系 P 和 Q 是 4 邻接 的 。 

e 8 邻接 〈8-Neighbor) : 如 果 QEne(P)， 则 称 具 有 V 中 数值 的 两 个 
像素 P 和 Q 是 8 邻接 的 。 

举例 来 说 ， 图 1.9 Ca) 、 'b) 分 别 是 像素 和 Q、Q1、Q; 的 4 邻接 和 8 
邻接 示意 图 。 而 对 于 两 个 图 像 子 集 S1 和 S,， 如 果 S1 中 的 某 些 像 素 和 S, 中 
的 某 些 像素 相 邻 ， 则 称 这 两 个 子 集 是 邻接 的 。 








0 I 0 0 P 0 
0 0 0 0 0 Q: 
(a) 4 邻接 示意 图 (b) 8 邻接 示意 图 
和 区 1.9 
2. 连通 性 


为 了 定义 像 了 素 的 连通 性 ， 我 们 自 先 需要 定义 像素 P 到 像素 Q 的 通路 
(Path) 。 这 也 是 建立 在 邻接 性 的 基础 上 的 。 

像素 P 到 像素 Q 的 通路 (Path)〉 指 的 是 一 个 特定 的 像素 序列 (xo, yo)， 
(X1, y1);, :…, (Xn, yn)， 其 中 (xoyo)=(Cxpyp)， (Cxnym=(Xqydq)。 并 且 像 素 Cxbyi) 
和 (xi1yi1) 在 满足 1<isn 时 是 邻接 的 。 在 上 面 的 定义 中 ，n 是 通路 的 长 
度 ， 知 (xo, yo) = (Xn, yn)， 则 这 条 通路 是 闭合 通路 。 相 对 应 于 邻接 的 概 
念 ， 在 这 里 有 4 通路 和 8 通路 。 这 个 定义 和 图 论 中 的 通路 定义 是 基本 相同 
的 ， 只 是 由 于 邻接 概念 的 加 入 而 变 得 更 加 复杂 。 

像素 的 连通 性 〈Contiguous) : 令 S 代 表 一 幅 图 像 中 的 像素 子 集 。 
如 果 在 S 中 全 部 像素 之 间 存 在 一 个 通路 ， 则 可 以 称 2 个 像素 P 和 Q 在 S 中 是 
连通 的 。 此 外 ， 对 于 S 中 的 任何 像素 P，S 中 连通 到 该 像素 的 像素 集 叫 做 
S 的 连通 分 量 。 如 果 S$ 中 仅 有 一 个 连通 分 量 ， 则 集合 S 叫 做 连通 集 。 

3. 区 域 和 边界 

区 域 的 定义 建立 在 连通 集 的 基础 上 的 。 令 R 是 图 像 中 的 一 个 像素 子 
集 ， 如 果 R 同 时 是 连通 集 ， 则 称 R 为 一 个 区 域 (Region) 。 

边界 (Boundary)〉 的 概念 是 相对 于 区 域 而 言 的 。 一 个 区 域 的 边界 
(或 边缘 、 轮 廊 ) 是 区 域 中 所 有 有 一 个 或 多 个 不 在 区 域 R 中 的 邻接 像素 
的 像素 所 组 成 的 集合 。 显 然 ， 如 果 区 域 R 是 整 幅 图 像 ， 那 么 边界 就 由 图 

















像 的 首 行 、 首 列 、 来 行 和 来 列 定义 。 因 此 ， 通 币 情 况 下 ， 区 域 指 一 幅 图 
像 的 子 集 ， 并 包括 区 域 的 边缘 。 而 区 域 的 边缘 〈Edge) 由 具有 东 些 导 
数值 的 像素 组 成 ， 是 一 个 像素 及 其 直接 邻 域 的 局 部 性 质 ， 是 一 个 有 大 小 
和 方向 属性 的 矢量 。 

边界 和 边缘 是 不 同 的 。 边 界 是 和 区 域 有 关 的 全 局 概念 ， 而 边缘 表示 
图 像 函 数 的 局 部 性 质 。 








1.3.2 距离 度量 尼 








基于 上 一 小 节 提 到 的 相关 知识 ， 我 们 来 理解 距离 度量 的 概念 。 假 设 
对 于 像素 P(x,, y,)、Q(Xa, yg))、R(Xi, 0) 而 言 ， 有 函数 DD 满足 如 下 3 个 条 
件 ， 则 函数 DD 可 被 称 为 距离 函数 或 度量 。 

(i) D(P, Q)z>0， 当 且 仅 当 P=Q 时 有 DC, Q) =0 

(ii) D(P, Q) =D(Q, P) 

(iii) D(P, Q) < D(P, R) +D(R, Q) 

常见 的 几 种 距离 函数 如 下 。 

(i) 欧 氏 距离 














De(P,O) = V(xp —xa) +(yp -yo) Cl 


即 距离 等 于 rf 的 像素 形成 以 P 为 圆心 的 圆 。 
(ii) Ds 距离 (街区 距离 ) 


Da(P,0)= (1-4) 








十 








Jp Vgq 


Xp Xaq 


即 距离 等 于 r 的 像素 形成 以 P 为 中 心 的 疤 形 。 
4ii) Da 距离 《棋盘 距 离 ) 


Dr(P,O) = max ( EE a 








+|yp = ) (1-3) 

即 距 离 等 于 rf 的 像 系 形成 以 P 为 中 心 的 方形 。 

距离 度量 参数 可 以 用 于 对 图 像 特征 进行 比较 和 分 类 或 者 进行 条 些 像 
素 级 操作 。 最 常用 的 距离 度量 是 欧 开 距离 。 然 而 在 形态 学 中 ， 也 可 能 使 
用 街区 距离 和 棋盘 距离 。 


1.3.3 基本 的 图 像 操作 


在 后 续 章 市 中 ， 将 涉及 各 种 各 样 的 图 像 操作 ， 这 里 就 儿 种 最 为 典型 
和 第 用 的 图 像 操 作者 重 说 明 。 按 照 处 理 图像 的 数量 分 类 ， 可 以 分 为 对 单 
幅 图 像 操 作 〈( 如 滤波 ) 和 对 多 幅 图 像 操作 (如 求 和 、 求 差 和 人 逻辑 运算 
等 ) ; 按照 参与 操作 的 像 系 范围 的 不 同 ， 可 以 分 为 点 运算 和 邻 域 运算 ; 
而 根据 操作 的 数学 性 质 ， 又 可 以 分 为 线性 操作 和 非 线性 操作 。 

1， 点 运算 和 邻 域 运算 

点 运算 指 的 是 对 图 像 中 的 每 一 个 像素 逐个 进行 同样 的 灰 度 变换 运 
算 。 设 r 和 s 分 别 是 输入 图 像 f(x, y) 和 输出 图 像 g(x, y) 在 任 一 点 (x, 7) 的 灰 度 
值 ， 则 点 运算 可 以 使 用 下 式 定 义 。 








$= 7(7) (1-6) 


而 如 果 将 点 运算 扩展 ， 对 图 像 中 每 一 个 小 范围 〈( 邻 域 》 内 的 像素 进 
行 灰 度 变换 运算 ， 即 称 为 邻 域 运算 或 邻 域 泪 波 。 这 可 以 使 用 下 式 定 义 。 





g(x, y) = T [Ax, y)] (1-7) 





我 们 将 分 别 在 第 3 章 和 第 5 章 介 绍 点 运算 和 邻 域 运算 。 
2. 线性 和 非 线性 操作 
令 了 是 一 种 算 了 于， 其 输入 输出 都 是 图 像 。 右 对 于 任意 两 幅 《或 两 








组 ) 图像 fi 和 f, 及 任意 两 个 标量 a 和 b 都 有 如 下 关系 成 并 。 
H(aFl +bP)=aH(R)+bH(F,) GE 


则 称 也 为 线性 算 子 。 也 即 对 两 幅 图 像 的 线性 组 合 应 用 该 算 子 与 分 
别 应 用 该 算 子 后 的 图 像 在 进行 同样 的 线性 组 合 所 得 到 的 结果 相同 ， 即 算 
子 瑟 满足 线性 性 质 。 同 样 的 ， 不 符合 上 述 定义 的 算 子 即 为 非 线性 算 
子 ， 对 应 的 是 非 线 性 图 像 操 作 。 举 例 来 说 ， 滤 波 中 的 平均 平滑 、 高 斯 平 
谓 、 度 锐 化 等 都 是 线性 运算 ， 而 中 值 滤波 《〈 详 见 第 5 章 空 间 域 图 像 增 
强 ) 则 是 非 线性 的 。 

线性 操作 由 于 其 稳定 性 的 特点 而 在 图 像 处 理 中 占有 非常 重要 的 地 
位 。 尽 管 非 线性 算 子 癌 癌 也 能 够 提供 较 好 的 性 能 ， 但 它 的 不 可 预测 性 使 
其 在 一 些 如 军事 图 像 处 理 和 医学 图 像 处 理 等 严格 的 应 用 领域 中 难以 获得 
广泛 的 应 用 。 














第 2 章 Matlab 数 字 图 像 处 理 基 础 


Matlab 是 MathWorks 公 司 开 发 的 一 蒜 工 程 数 学 计算 软件 。 不 同 于 
C++、Java、Fortran 等 高 级 编程 语言 是 对 机 器 行为 进行 描述 ，Matlab 是 
对 数学 操作 进行 更 直接 的 描述 。Matlab 图 像 处 理工 具 箱 (Image 
Processing Toolbox, IPT) 封装 了 一 系列 针对 不 同 图 像 处 理 需 求 的 标准 算 
法 ， 它 们 都 是 通过 直接 或 间接 地 调用 Matlab 中 的 窍 阵 运算 和 数值 运算 函 
数 来 完成 图 像 处 理 任 务 的 。 





2.1 Matlab R2011a 简 介 


本 节 将 介绍 一 些 Matlab R2011a 中 与 图 像 处 理 密切 相关 的 数据 结构 及 
基本 操作 ， 如 基本 文件 操作 、 变 量 使 用 、 程 序 流程 控制 、 打 开 和 关闭 图 
像 以 及 图 像 格 式 转 换 和 存储 方式 等 。 这 些 都 是 后 续 将 要 学 习 的 图 像 处 理 
算法 的 基础 。 


a 


2.1.1 Matlab \ 境 


1. 软件 界面 

图 2.1 所 示 是 运行 于 32-bit Windows 操 作 系 统 上 的 Matlab R2011a 界 
面 。 软 件 主 界面 由 3 个 子 窗 口 组 成 ， 左 上 为 当前 工作 目录 的 文件 列表 ， 
右上 方 为 当前 工作 区 的 变量 ， 右 下 为 当前 和 最 近 会 话 的 命令 历史 记录 ， 
而 中 间 的 主 窗口 则 是 命令 输入 和 结果 输出 区 ，>> 为 提示 符 。 
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命令 窗口 


>> 为 提示 符 




















| start) 














A 图 2.1 Matlab 界 面 


2. Matlab 命 令 与 程序 

可 以 在 >> 提 示 符 后 面 输入 简单 的 算式 (如 5*3-2) 或 带 有 函数 的 算 
式 《 如 sin(pi/2)*sqrt(3)/2〉 并 按 回 车 键 ， 会 提示 ans=0.8660， 这 就 是 
Matlab 最 基本 的 计算 功能 。 

这 样 的 输入 形式 实际 上 是 Matlab 命 令 ， 而 如 果 在 每 行 命令 的 结尾 输 
入 半角 分 号 ， 命 令 窗口 不 会 立即 显示 命令 执行 的 结果 ， 而 会 将 结果 保存 
在 工作 区 中 。 示 例如 下 。 

>> res = sin(pi/2)*sqrt(3)/2;”% 将 计算 结果 保存 至 变量 res 当 中 

此 时 ， 变 量 res 已 经 存在 于 工作 区 中 ， 但 是 命令 窗口 不 会 回 显 它 的 

















值 。 
另外 ， 也 可 以 在 文件 菜单 下 执行 “New” 人 他 “ML-Files” 命 令 来 创建 一 
个 新 的 Matlab 文 件 ， 在 里 面 输入 命令 (以 半角 分 号 结尾 ) ， 从 而 得 到 一 


个 Matlab 程 序 。 在 Matlab 程 序 中 ， 使 用 % 表 示 注 释 ， 其 用 法 和 C/C++ 中 
的 /注释 符 类 似 。 

3. 跨行 语句 

Matlab 允许 在 同一 行 中 输入 多 条 语句 ， 之 间 用 分 号 隔 开 。 同 时 ， 
Matlab 还 允许 将 同一 条 语句 分 制 在 多 行 中 书写 以 方便 较 长 语句 的 阅读 ， 
方法 是 在 行 末 使 用 3 个 半角 圆 点 。 示 例如 下 。 

>>Z=2.#kX+exp(X.^A2+Yy. 人 2-Ssdqrt(1-1log(X) -log (y) ) ).… 

-Vy.* Sqrt(t) -x .* sqrt(t); 








2.1.2 文件 操作 


默认 情况 下 ，Matlab 可 以 自动 搜索 到 当前 目录 〈Current Directory) 
和 Matlab 的 路 径 变 量 path 中 所 含有 目录 下 面 的 文件 。 对 处 在 这 些 位 置 可 
由 Matlab 执行 的 文件 ， 直 接 在 命令 窗口 中 键入 文件 名 即 可 运行 。 如 采 
需要 直接 运行 其 他 目录 下 的 文件 ， 就 要 使 用 addpath 和 genpath 等 命令 问 
路 径 列 表 中 添加 路 径 。 

1. addpath 函 数 

addpath 函 数 各 path 变 量 中 加 入 指定 的 目录 路 径 ， 其 原型 如 下 。 

addpath('dir','dir2','dir3' .…-flag) 

该 函数 可 以 接受 任意 数目 的 参数 。 

参数 说 明 

e dir、dir2、dir3 等 为 要 加 入 的 目录 路 径 ， 这 些 变量 必须 是 绝对 路 
位 

e flag 参 数 可 以 用 来 指定 函数 的 行为 ， 它 是 可 选 参数 ， 其 取 值 的 含 
义 如 表 2.1 所 示 。 

















表 2.1 addpath 函 数 flag 参 数 的 取 值 








合法 取 值 含 义 
a 这 些 路 径 将 被 添加 到 搜索 列表 的 最 前 面 ， 这 些 目录 中 含有 的 文件 将 先 于 原 列表 中 的 同名 文件 被 
a 找到 从 而 执行 。 这 往往 用 于 需要 修改 系统 某 一 命令 行 为 的 场合 
1 或 者 end 这 些 路 径 将 被 添加 到 搜索 列表 的 最 后 面 ， 原 列表 中 的 同名 文件 将 先 于 这 些 目录 中 含有 的 文件 被 
外 找到 从 而 执行 。 这 样 可 以 避免 用 户 M 文件 镍 盖 系 统 M 文件 的 功能 
省 略 与 0 或 begin 相同 


可 以 在 使 用 addpath 函 数 前 后 查看 path 变 量 的 内 容 ， 以 确定 添加 成 
功 。 

2. genpath 函 数 

genpath 函 数 生 成 包含 指定 目录 下 所 有 子 目 录 的 路 径 变 量 ， 其 原型 如 


下 
p= genpath('directory); 
参数 说 明 
e@ 参数 directory 为 指定 的 目录 。 
返回 值 


函数 返回 包含 指定 目录 本 喘 和 其 全 部 子 目 录 的 数据 。 返 回 值 也 可 
本 addpath， 从 而 直接 添加 一 个 目录 及 其 全 部 子 目 录 到 当前 路 
径 列 表 中 。 通 过 这 样 的 方式 可 以 方便 地 调用 我 们 自己 的 程序 工具 箱 ， 例 
如 使 用 下 面 的 命令 将 目录 “F:\doctor research\Matlab Work\FaceRec” 添 加 
到 系统 当前 路 径 列 表 后 ， 就 可 以 直接 调用 人 脸 识 别 工具 箱 FaceRec 中 的 
任何 函数 了 。 

>> addpath(genpath('F:\doctor research\Matlab Work\FaceRec'")) % 注 意 
这 里 要 使 用 绝对 路 径 
也 可 以 在 运行 M 文 件 时 使 用 完整 的 文件 路 径 ， 从 而 避免 同名 文件 的 
冲突 问题 ， 或 是 从 资源 管理 器 中 将 M 文 件 拖 动 到 Matlab 的 命令 窗口 中 直 
. 打开 与 编辑 M 文 件 
0 可 以 使 用 open 命 令 和 edit 命 令 ， 它 们 的 

















调用 形式 如 下 。 

open filename 

edit filename 

参数 filename 为 需要 打开 的 文件 名 。edit 命 令 只 能 编辑 M 文 件 ， 而 
open 命 令 可 以 使 用 Windows 默 认 操 作 打开 一 系列 其 他 类 型 的 文件 。 


2.1.3 在 线 帮 电 


在 Matlab 中 ， 有 4 种 方法 获取 软件 的 在 线 帮助 。 
1. help 命 令 
help 命 令 可 以 用 于 查看 Matlab 系 统 或 M 文 件 中 内 置 的 在 线 帮助 信 
。 命 令 格式 如 下 。 
help command-name 
command-name 为 需要 查看 在 线 帮助 的 命令 或 函数 的 名 称 。 例 如 ， 
想 要 查看 doc 命 令 的 使 用 方法 ， 可 在 命令 提示 符 下 直接 输入 help doc， 如 
图 2.2 所 示 。 

2. doc 命 令 

doc 命令 可 以 用 于 碍 看 命令 或 函数 的 HIML 帮助 ， 这 种 帮助 信息 可 
以 在 帮助 浏览 占 窗 口中 打开 。 其 调用 格式 如 下 。 

doc function-name 

doc 命 令 可 提供 比 help 命 令 更 多 的 信息 ， 还 可 能 包含 图 片 或 视频 等 的 
多 媒体 例子 ， 对 图 像 处 理工 具 箱 中 的 函数 更 是 如 此 。 

图 2.3 所 示 为 在 命令 行 中 输入 doc imhist 命 令 后 出 现 的 帮助 示例 界 
面 。 


亚 











>> help doc 
DOC Reference page in Help browser. 


DOC opens the Help browser, if it is not already rumning, and 
otherwise brings the Help browser to the top. 


DOC FUNCTIONNANME displays the reference page for FUNCITIONNAME in 
the Help brovser. FUNCITIONNANME can be a function or block in an 
installed MathWorks product. 


DOC METHODNANE displays the reference page for the method 
EIHODNAME. You may need to run DOC CLASSNANE amnd Use links on the 
CLASSNAME reference page to view the METHODNANE reference page. 


DOC CLASSNANE displays the reference page for the class CLASSNANE 
You may need to qualify CLASSNAYE by including its package: DOC 
PACKAGENAME .CLASSNAME . 


DOC CLASSNANE. MEIHDDNAE displays the reference page for the method 
EITHODNAME in the class CLASSNAME. You may need to qualify 
CLASSNAME by including its package: DOC PACKAGENAME, CLASSNAME., 


DOC PRODUCITOOLBOXNANE displays the documentation roadnap page for 
PRODUCTTOOLBOXNAME in the Help browser. PRODUCTIOOLBOXNANE is the 
folder name for a product lin matlabroot/toolbox. To get 
PRODUCIIOOLBOXIAME for a product, run WHICH FUNCITIONNANE, where 
FUNCTIIONNANWE 1s the nane of a function ln that product; MAILAB 
returns the full path to FUNCTIONNANE, and PRODUCTIOOLBOXNAME is 
the folder following natlabroot/to00lbox/. 


A 图 2.2 help 命 令 界 面 
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Ele Edit View Go Favorites Desktop Window Help y 
[ep 也 -I we we <« Pixel Values and Statistics » imhist | 
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Contents | Search Results dint16, i int32, single, Gouble, Of logical. An input 
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由 -人 @ User's Guide 
‘BB-fr Functions Examples 
由 -JImage Display and Exploratio I = imread('pout.tif'); 
由 -GUI Tools 


imhist (I) 
: 由 -Spatial Transformation and Ir 


i : BImage Analysis and Statistics | 三 
由 Image Analysis 








由 -Texture Analysis 
BPixel Values and Statistics 
i fx corr2 - 2-D correla' 


i fr imcontour - Creste 


i fr impixel - Pixel color 
i fr improfile - Pixe/-val 
“fr mean2 - re 0 


:fr regionprops - 
i fr std2 - Standard diel 
Ln 币 Image Arithmetic 
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A 图 2.3 doc 命 令 结果 


3. RS 
生态 记 命令 或 函数 的 完整 拼写 时 ， 可 以 使 用 lookfor 命 令 | 前 日 
录 和 自动 搜索 列表 下 所 有 名 字 中 含有 所 但 内 容 的 函数 或 命令 。 其 调用 格 
二 下 2 
lookfor keyword 
keyword 为 指定 要 查找 的 关键 字 。 此 命令 可 以 给 出 一 个 包含 指定 字 
从 串 的 函数 列表 ， 其 中 的 函数 名 称 为 超 链接 ， 单 击 即 可 查看 该 函数 的 在 
人 如 图 2.4 所 示 。 











| >> lookfor sin 































| tscollection ~ Create a tscollection object UsSing tine or time series objects. 

BioIndexedFile ~ class allows randon read access to text files using ar index fil 
cgslblock - Constructor for calibration Generation Simulink block parsing 了 

xregaxesinput - Constructor for the axes input object for a ListCtrl 

| ExhaustiveSeal\cher ~ Jearest neighbor search object usine exhaustive search. 

[Drosisrche Nearest neighbor search object using a kd-tree. 

1ismcc tests if the code is ruming during conpilation process (using 
ava Using Java fron vithin MAILAB. 

Synt ax You can enter WAILAB commands using either a FUNCIION fornat or 

| subsindex Subscript index. 

| bsxfun Binary Singleton Expansion Function 

isinf True for infinite elements. 

Squeeze 单 击 超 链接 Remove singleton dinensions. 

| aces 可 查看 函数 erse cosine, result in radians. 

| acosd 的 在 线 帮助 Inverse cosine, result in degrees,. 

| acosh Inverse hyperbolic cosine. 

| asin ~ Inverse sine, result in radians. 

| asind -~ Inverse sine, result in degrees. 

| asinh - Inverse hyperbolic sine. 

cos ~ Cosine of argunent in radians., 

| cosd ~ Cosine of argunent in degrees. 

| cosh - Hyperbolic cosine. 

|sin - Sine of argunent in radians. 

| sind ~ Sine of argunent in degrees. 

| sinh ~ Hyperbolic sine. 

| gsvd - Generalized Singular Value Deconposition. 

| svd - Singular Value decomposition. 

| det rend ~ Remnove a linear trend from a vector, usually for FFI processing, 

[interpft = 1-D interpolation usine FFT method,. 














A 图 2.4 lookfor 命 令 界 面 


4. F1 命 令 打 开 帮 助 浏览 
在 Matlab R2011a 的 主 界面 中 按键 稚 的 下 1” 键 ， 弹 出 如 图 2.5 所 示 的 
对 话 框 。 


各 趾 写 | 旦 | 的 


MATLAB 


Functions : Handle Graphics: 


mnBy Category soObject Properties 
nAlphabetical List 


What” s New 


nATLAB Release Notes 
Summarizes new features, bug fixes, upgrade issues, 
etc. 








Fl to toggle focus; Escape to close :: 


A 图 2.5 按 F1 键 的 对 话 框 


单 击 左下 角 的 “Open Help Browser” 链 接 打 开 如 图 2.6 所 示 的 帮助 浏览 
器 窗口 。 在 左上 角 的 编辑 框 中 输入 感 兴 趣 的 关键 字 ， 单 击 回 车 进行 得 
询 ， 右 侧 会 出 现 相 应 的 帮助 信息 。 

在 后 面 的 章节 中 ， 如 果 态 记 了 曾经 提 到 的 命令 的 含义 ， 建 议 首 先 通 
过 在 线 帮助 寻求 相关 信息 ， 以 此 增强 自学 能 力 。 




















LL 作 Bioinformatics Toolbox 

| 起 code Generation from MATLAB 
届 舍 communications System Toolbo: 
让 部 Computer Vision System Toolbo 上 
EE 今 Control System Toolbox 





和 和 中 将" 稳 ，MATLAB ， 


= MATLAB 


non i0046 


Functions: Handle Graphics: 


"By Category "Obicct Properties 
-Alphabetical List 





庙 爷 Database Toolbox 
由 全 Datafeed Toolbox 


9 EDA Simulator Link 
讨 地 Embedded Coder 


让 人 Financial Toolbox 


db Getting Started 
9 9 User's Guide 
3 fr Functions 


由 GUI Tools 





2.1.4 变量 六 


EE 命 Curve Fitting Toolbox 
让 低 Data Acquisition Toolbox 


自净 DSp System Toolbox 
地 Econometrics Toolbox 


应 登 Filter Design HDL Coder 


应 舍 Fnancial Derivatives Toolbox 
由 人 盐 Fxed-lncome Toolbox 

四 人 狠 Fxed.point Toolbox 

Dp Fuzzy Logic Toolbox 

1 地 Global Optimization Toolbox 
日 郊 lImage Acquisition Toolbox 

[ 字 Image Processing Toolbox 


What’s New 


-MATLAB Release Notes 
Summarizes new features, bug fixes, uperade issues, etc. 





"Gencral Release Notes for R20lila 
For all products, hiehliehts new features, installation notes, bug fixes, and 
compatibility issues 








Documentation Set 
Getting Started 
» User Guides 
"Getting Help 
Provides instructions for using help functions, the Help browser, and other 


resources 


Examples in Documentation 





B image Display and Exploratio Lists major exanples in the MATLAB documentation 


Provides helpful techniques and shortcuts for prograsming in MATLAB 








四 Spatial Transformation and ir ~ "Programming Tips 
呈 





A 图 2.6 Help 浏 览 器 窗口 


变量 可 以 保存 中 间 结 果 和 输出 数值 等 信息 。Matlab 中 ， 变 量 的 命名 


规则 和 C/C++ 等 








常见 的 编程 语言 很 类 似 ， 同 时 变量 也 是 大 小 写 敏感 的 。 





另外 ，Matlab 中 的 变量 不 需要 先行 定义 ， 但 在 使 用 前 一 定 要 赋值 。 

1. 变量 的 赋值 

可 以 通过 赋值 语句 来 给 变量 赋值 。 赋 值 操 作 使 用 等 号 “=”， 例 如 a=5 
是 给 a( 注 意 不 是 A ) 这 个 变量 赋值 5， 如 果 未 定义 变量 a， 会 自动 定 
义 。 在 Matlab 中 ， 变 量 定义 时 不 需要 显 式 地 指明 类 型 ， Matlab 会 根据 等 
号 右边 的 值 自 动 确定 变量 的 类 型 。 默 认 的 对 数字 的 存储 类 型 为 double 型 
或 double 型 数组 ， 而 字符 的 存储 类 型 为 char 型 ， 字 符 串 的 存储 类 型 为 char 








型 数组 。 





对 字符 串 赋 值 时 ， 需 要 用 半角 单 引 号 ' 括 起 来 〈 注 意 不 是 双 引 号 ， 也 
不 是 任何 的 全 角 字 符 ) ， 例 如 msg='Hello world'。 


2. 内 部 变量 


Matlab 有 东 些 内 部 变量 名 和 保留 字 ， 


与 它们 重 名 。 





表 2.2 Matlab 内 部 变量 列表 


如 表 2.2 所 示 。 变 量 命名 时 不 要 














特殊 变量 说 明 
| 默认 的 结果 输出 变量 
pi 圆周 率 
Inf 或 inf 无 穷 大 值 ， 如 1/0 
i 和 j 单位 虚数 值 
eps 浮 点 运算 的 相对 精度 
特殊 变量 说 了 明 
realmax 最 大 的 正 浮 点 数 
realmin 最 小 的 正 浮 点 数 
NaN 或 nan 不 定量 ， 如 0/0 
nargin 函数 输入 参数 个 数 
nargout 函数 输出 参数 个 数 
lasterr 最 近 的 错误 信息 
lastwarning 最 近 的 警告 信息 
computer 计算 机 类 型 
version Matlab 版 本 


3. 和 碍 看 工作 区 中 的 变量 








使 用 who 和 whos 命 令 可 以 查看 所 有 当前 工作 区 中 变量 的 情况 。 使 用 
clear 或 clear al 命令 可 以 清除 工作 区 中 所 有 的 变量 定义 ， 也 可 以 在 clear 后 
面 加 上 变量 名 清除 特定 的 变量 定义 。 另 外 ，clc 命 令 可 以 用 来 清 屏 ， 所 以 








这 两 个 命令 


>> aa 三 


>> str = hello'; % 和 定义 一 个 字符 串 变 量 〈 


常用 在 M 文 件 的 开头 用 来 构造 
rn 


告 一 个 干净 的 工作 区 。 





>> v= [32 1] % 定 义 一 个 数值 型 向量 


V 一 
3 2 1 
>> whos 


Name Size 


a 1x1 
str 1x5 
V 1x3 
>> clear all 
>> whos 

>> 


数据 类 型 及 其 
Matlab 中 的 数据 类 型 列表 如 表 2.3 所 示 。 


Bytes Class 


8 double 
10 char 
24 double 


转换 


Attributes 


字符 数组 ) 


表 2.3 Matlab 数 据 类 型 





数据 类 型 说 了 明 

ple Matlab 中 最 常见 也 是 默认 的 数据 类 类 型 ， 双 精 度 方式 存储 的 浮 点 数 。 有 效 范围 是 -10™~10™。 这 同 
时 也 是 Matlab 所 能 直接 给 出 的 最 大 数值 范围 。 此 种 类 型 占用 的 内 存 空 间 为 8 字 节 

uint8 8 位 无 符号 整数 ， 范 围 是 0 一 2355。 此 种 类 型 占用 的 内 存 空间 为 1 字 节 

uint16 16 位 无 符号 整数 ， 范 围 是 0 一 655 35。 此 种 类 型 占用 的 内 存 空间 为 2 字 节 

uint32 32 位 无 符号 整数 ， 范 围 是 0 一 4 294 967 295。 此 种 类 型 占用 的 内 存 空间 为 4 字 节 

Uint64 64 位 无 符号 整数 ， 范 围 是 0 一 18 446 744 073 709 551 615。 此 种 类 型 占用 的 内 存 空间 为 8 字 节 

int8 8 位 有 符号 整数 ， 范 围 是 -128 一 127。 此 种 类 型 占用 的 内 存 空 间 为 1 字 节 

int16 16 位 有 符号 整数 ， 范 围 是 -32 768 一 32 767。 此 种 类 型 占用 的 内 存 空间 为 2 字 节 


续 表 














数据 类 型 说 了 明 
int32 32 位 有 符号 整数 ， 范 围 是 -2 147 483 648 一 2 147 483 647。 此 种 类 型 占用 的 内 存 空间 为 4 字 节 
ee 64 位 有 符号 整数 ， 范围 是 -9 223 372 036 854 775 808 一 9 223 372 036 854 775 807。 此 种 类 型 占用 的 
内 存 空间 为 8 字 节 
single 单 精 度 浮 点 数 ， 范 围 是 -10* 一 10*。 此 种 类 型 占用 的 内 存 空间 为 4 字 节 
char 字符 型 变量 ， 占 用 空间 为 2 字 节 
logical 布尔 型 变量 ， 占 用 空间 为 1 字 节 。 此 种 类 型 的 转换 函数 也 可 以 使 用 boolean 与 logical 等 效 





默认 情况 下 ，Matlab 将 变量 存储 为 双 精 度 浮 点 数 (double) ， 而 
Matlab 中 的 很 多 函数 也 只 接受 这 种 类 型 的 数据 。 然 而 ， 图 像 处 理 操作 中 
经 常 使 用 到 uint8 等 类 型 的 数据 ， 这 就 需要 执行 数据 类 型 的 强制 转换 操 
作 。 这 种 操作 很 简单 ， 调 用 格式 统一 如 下 。 

Destination_Var = type_name(Source_Var) 

其 中 ，type_name 即 数据 的 存储 类 型 ，Destination_Var 和 Source_Var 
分 别 为 目标 变量 和 原始 变量 。 例 如 下 面 的 命令 将 double 原 始 变量 a 转 换 为 
uint8 变 量 b。 


>>a=1; 








>> b = uint8(a); 

5. 读 取 与 保存 工作 区 中 的 变量 

save 命 令 可 以 将 当前 工作 区 的 变量 以 二 进 制 的 方式 保存 到 扩展 名 为 
MAT 的 文件 中 ; load 命 令 可 以 读 出 这 样 的 文件 。 它 们 的 调用 格式 如 下 。 


save filename argl arg2 arg3, ... 





load filename argl arg2 arg3, ... 

e filename 参 数 指定 保存 或 读 取 变量 所 使 用 的 文件 名 。 如 有 果 不 指定 
文件 名 ， 上 默认 使 用 的 文件 是 Matlab.MAT。 

e argl、arg2、arg3 等 参数 是 需要 从 文件 中 存储 或 读 出 的 变量 名 。 这 
两 个 命令 分 别 可 以 存储 或 读 取 一 个 或 一 组 变量 。 

下 面 的 命令 将 price、age 和 number 三 个 变量 保存 到 文件 MyData.mat 
中 。 











>> save( MyData.mat', 'price', 'age', number') 

提示 

也 可 以 不 指定 变量 名 ， 从 而 将 当前 工作 区 中 所 有 的 变量 一 起 储存 到 
mat 文件 或 将 文件 中 保存 的 所 有 变量 一 起 读 入 工作 区 ， 这 个 批量 保存 和 
读 取 功能 在 运行 非常 耗 时 的 程序 时 显得 十 分 有 用 由 于 Matlab 执 行 效 
率 并 不 高 《和 Visual C++ 相 比 ) ， 所 以 对 于 一 个 计算 量 很 大 的 程序 而 
言 ， 运 行 几 个 小 时 并 不 稀奇 。 这 时 ， 可 以 根据 需要 在 希望 中 断 程序 时 保 
存 程序 的 所 有 上 下 文 变量 ， 以 备 之 后 随时 从 中 断 点 开始 执行 。 
































2.1.5 年 阵 的 使 用 


1. 和 矩阵 的 定义 

在 Matlab 中 定义 矩阵 很 简单 。 可 以 使 用 半角 分 号 分 隔行 与 行 ， 使 
用 半角 逗号 (或 者 空格 ) 分 隔 列 与 列 来 直接 定义 矩阵 ， 例 如 下 面 的 命令 
就 定义 了 一 个 3 行 3 列 的 三 维和 矩阵 A。 

A=[1, 2, 3; 4, 5, 6; 7, 8, 9] 

六 后 











1 2 3 
4 5 6 
7 8 9 
还 有 男 一 种 方式 可 以 生成 行 癌 量 ，[begin:inc:end] 会 生成 从 begin 开 
始 到 end 结 束 ， 增 量 为 incre 的 一 系列 数字 组 成 的 同 量 。 例 如 v=[2:1:10] 表 
示 生 成 从 2 到 10 的 间隔 为 1 的 同 量 (一 维和 矩阵 ) ， 即 
v= [2:1:10] 


V 二 








2 3456789 10 
如 朵 间隔 为 1， 也 可 以 忽略 中 间 的 参数 ， 和 直接 输入 I=[2:10] 即 可 。 


2. 生成 特殊 窍 阵 


除 下 接 定 义 外 ， 





还 可 以 通过 函数 生成 特定 的 矩阵 ， 例 如 eye(D) 生 成 


N 阶 单位 阵 ，zerosCnD) 生 成 N 阶 每 个 元 系 均 为 0 的 方 阵 ，magic(oD) 生 成 N 阶 
常见 的 用 于 生成 矩阵 的 函数 列表 如 表 2.4 所 示 。 


WA] 


表 2.4 生成 矩阵 的 函数 











函数 名 称 途 
eye 产生 单位 矩阵 
Zeros 产生 全 部 元 素 为 0 的 矩阵 
ones 产生 全 部 元 素 为 1 的 矩阵 
true 产生 全 部 元 素 为 真 的 逻辑 矩阵 
false 产生 全 部 元 素 为 假 的 逻辑 矩阵 
rand 产生 均匀 分 布 随机 和 窍 阵 
randn 产生 正 态 分 布 随机 矩阵 
randperm 产生 随机 排列 
Linspace 产生 线性 等 分 的 矩阵 
Logspace 产生 对 数 等 分 向 量 
Company 产生 伴随 矩阵 
Hadamarb 产生 Hadamarb 和 矩阵 
Magic 产生 幻 方 矩阵 
Hilb 产生 Hilbert 矩阵 
Invhilb 产生 逆 Hilbert 矩阵 

3， 获 得 甜 阵 大 小 和 维度 


size 函 数 可 以 获得 指定 数组 系 一 





维 的 大 小 ， 


可 以 用 来 查看 图 像 的 高 


度 和 宽度 以 及 动态 图 像 的 帧 数 等 。 其 调用 方法 如 下 。 
size(A,dim) 
e A 为 需要 奋 看 大 小 的 数组 。 
e dim 为 指定 的 要 碍 看 的 维 数 ， 这 是 一 个 可 选 参数 ， 奉 不 指定 此 参 


数 ， 返 回 值 为 一 个 包含 数组 从 第 





一 维 到 最 后 一 


维 大 小 的 数组 。 


例如 ， 对 于 一 个 3 行 5 列 的 矩阵 B， 有 size(B, 1)=3，size(B, 2) = 5， 


size(B) = [3 5]。 
函数 ndims 可 以 查看 数组 的 维 数 。 调 用 方式 如 下 。 
ndims(A) 
其 中 A 为 需要 得 看 维 数 的 数组 。 
4. 访问 矩阵 元 素 





ee be 例 


如 访问 A 的 第 三 行 第 二 列 元 素 就 是 A(3,2)。 提 取 和 矩阵 的 一 


整 行 元 素 ， 如 


要 提出 A 的 第 二 行使 用 A(2,:)， 如 果 是 第 二 列 则 是 A(:,2);， 而 A(:) 表 示 将 





矩阵 按 列 存储 得 到 一 个 长 列 同 量 。 示 例如 下 。 
>> A=[1, 2, 3; 4, 5, 6; 7, 8, 9] ; % 定 义 定 阵 A 
>> A(1, :) % 提 取 第 1 行 
dns 一 
(本 
>> A(:, 3) % 提 取 第 3 列 
dns 一 
3 
6 
9 
>> A(:) 
dns 一 
1 4 7 2 5 8 3609 
注意 


Matlab 中 的 矩阵 下 标 是 从 1 开始 的 。 对 图 像 窍 阵 也 是 一 样 ， 


个 mxn 的 矩阵 实际 的 下 标 范 围 为 [1:m] 和 [1:n]。 


对 于 和 矩阵 A， 提 取 甜 阵 元 素 或 子 块 的 方法 如 表 2.5 所 示 。 


表 2.5 提取 和 窍 阵 元 系 或 子 块 的 方法 


历届 一 


A(m,n) 

A(:,n) 

A(m,:) 
A(ml:m2, nl:n2) 
A(m:end, n) 

A(:) 


令 片 断 用 途 


提取 加 行列 位 置 的 一 个 元 素 

提出 第 nn 列 

提出 第 太行 

提出 ml 到 m2 行 ，n1 到 n2 列 的 一 个 子 块 
提出 m 行 到 最 后 一 行 ， 第 列 的 一 个 子 块 
将 矩阵 按 列 存储 得 到 一 个 长 列 向 量 


5. 进行 矩阵 运算 
可 以 像 对 数字 操作 一 样 对 和 矩阵 进行 操作 ， 常 见 算 术 运 算 符 的 使 用 方 


法 如 表 2.6 所 示 。 


运 算 
加 
减 
条 
运 算 
点 乘 
乘 方 
年 阵 乘 方 
和 矩阵 左 除 
和 矩阵 右 除 
左 除 
右 除 


矩阵 与 向 量 转 置 





表 2.6 币 见 的 算术 运算 符 


对 应 函数 说 明 


| 





续 表 


ti 矩阵 的 对 应 元 素 相 乘 。 参与 运算 的 两 个 矩阵 必须 拥有 同样 的 
imes(A,B) 大 小 


对 矩阵 的 每 一 个 元 素 进 行 指定 宕 次 的 乘 广 
左 除 A\B 相当 于 inv(A)* B 

右 除 A/B 相当 于 B* inv(A) 

矩阵 中 对 应 位 置 的 元 素 的 左 除 

逢 阵 中 对 应 位 置 的 元 素 的 右 除 

| ”| transpose(A,B) | 这 里 的 转 置 不 对 复数 进行 共 簿 操作 


应 用 于 复数 数值 时 的 含义 是 取 共 思 , 应 用 于 实数 矩阵 时 的 仿 
复数 年 阵 转 置 ( 共 思 ) ctranspose(A,B) ”| 义 与 普通 转 置 相同 , 应 用 于 复数 矩阵 时 首先 对 所 有 元 素 取 共 
思 再 求 矩 阵 转 置 


矩阵 运算 的 求 值 顺序 和 一 般 的 数学 求 值 顺序 相同 : 表达 式 是 从 左 癌 








右 执 行 的 ， 窜 运算 的 优先 级 最 高 ， 乘 除 次 之 ， 最 后 是 加 减 。 如 果 有 括 
号 ， 那 么 括号 的 优先 级 最 高 。 

对 于 图 像 和 矩阵， 还 有 一 系列 Matlab 函 数 可 以 进行 专门 针对 图 像 的 像 
素 级 操作 。 如 图 像 登 加 imadd， 图 像 相 减 imsubtract 等 。 


2.1.6 细胞 数组 和 结 松 


1. 细胞 数组 

在 处 理 函 数 返回 值 和 示 波 恬 部 件 输出 时 ， 常 常会 遇 到 不 同 维度 的 返 
回 值 同 时 被 一 个 函数 返回 的 情况 。 同 时 ， 通 常 也 希望 能 使 函数 的 输入 参 
数 尽 可 能 少 。Matlab 提 供 了 人 允许 这 样 做 的 方式 。 

细胞 数组 是 Matlab 特 有 的 一 种 数据 结构 ， 它 的 各 个 元 素 可 以 是 不 同 
的 数据 类 型 。 细 胞 数组 可 采用 下 标 访问 。 

例如 ， 一 个 细胞 数组 可 以 采用 如 下 方式 定义 。 

Cell = {Harry, 15, [1 0; 15 2]}; 

也 可 以 通过 {} 加 上 索引 来 直接 定义 细胞 数组 的 茶 个 元 素 ， 如 下 所 














% 定 义 细胞 数组 的 另 一 种 方式 

>>Cell {1}= Harry'; 

>>Cell{2}= 15; 

>>Cell{3}= [1 0; 15 2]; 

注意 使 用 花 括号 们 而 不 是 方 括 写 [] 来 定义 细胞 数组 。 对 细胞 数组 的 
访问 方式 也 很 简单 ， 同 样 使 用 花 括 写 来 给 定 索 引 值 。 

% 访 问 细 胞 数组 

>> Cell{1} 

ans = 


Harry 


>> Cell{2} 
ans = 
15 
>> Cell{3} 
ans = 
10 
152 
而 使 用 圆 括 号 形式 的 索引 可 以 得 到 变量 的 描述 ， 如 下 所 示 。 
>> Cell(3) 
ans = 
[2x2 doublel] 
注意 
细胞 数组 中 存储 的 是 建立 该 对 象 时 所 使 用 的 其 他 对 象 〈 和 矩阵 或 字符 
串 、 数 字 等 ) 的 拷贝 ， 而 不 是 引用 或 指针 ， 即 使 其 他 对 象 的 值 被 改变 ， 
细胞 数组 中 的 值 也 不 变 。 
2. 结构 体 
结构 体 是 另 一 种 形式 的 聚合 类 型 ， 它 与 C/C++ 中 的 结构 体 或 类 很 相 
似 ， 拥 有 多 个 不 同类 型 的 字段 ， 通 过 圆 点 运算 符 “.? 引 用 内 部 字段 ， 字 上 段 
必须 具有 独特 的 名 字 以 便 区 分 。 访 问 结构 体 的 方式 与 定义 的 方式 相同 。 
上 面 的 例子 如 果 用 结构 体 表 示 ， 则 为 如 下 上 所 示 。 
% 定义 结构 体 


Struct.Name = 'Harry,; 








Struct.Age = 15; 
Struct.SalaryMatrix = [1 0; 15 2j]; 
>> 

>> Struct % 显 示 结 构 体 的 内 容 


Struct = 


Name: Harry 
Age: 15 
SalaryMatrix: [2x2 double] 
>> 
% 访问 结构 体 的 内 部 字段 
>>name = Struct.Name; 
而 访问 结构 体内 容 时 ， 使 用 相同 的 语法 即 可 ， 例 如 Struct.Name 的 值 
仍然 是 Harry。 

这 两 种 复合 类 型 在 保存 用 户 输入 和 使 用 Simulink 仿 真 输出 时 尤为 常 











表 2.7 关系 运算 符 的 使 用 











Matlab 同 样 文 持 逻 辑 运算 ， 常 见 的 逻辑 运算 符 如 表 2.8 所 示 。 
表 2.8 逻辑 运算 符 的 使 用 








Matlab 最 为 强大 的 功能 是 依靠 函数 实现 的 ， 这 些 函 数 可 能 是 Matlab 
内 置 的 ， 也 可 能 是 由 M 文 件 提供 的 。 和 常见 的 有 sin、cos、tan、log、log2 
这 样 的 数值 函数 和 trace 这 样 的 窍 阵 函数 ， 还 有 逻辑 函数 等 。 逻 辑 函 数 和 
和 窍 阵 函数 在 图 像 处 理 中 应 用 较 多 ， 表 2.9 所 列 为 其 中 较 常 用 的 一 部 分 函 
数 。 关 于 这 些 函 数 更 详细 的 用 法 描述 ， 可 以 通过 help 或 open 命 令 获得 。 





表 2.9 第 用 的 逻辑 函数 和 矩阵 函数 








函 用 途 
all 是 否 所 有 元 素 非 零 
any 是 否 至 少 有 一 元 素 非 
isempty 是 否 空 矩阵 
isequal 是 否 两 矩阵 相同 
isinf 判断 有 无 inf 元素 
isnan 判断 有 无 nan 元 素 
isreal 判断 是 否 实 和 矩阵 
find 返回 一 个 由 非 零 元 素 下 标 组 成 的 矩阵 
det 计算 方 阵 对 应 的 行列 式 值 
diag 抽取 对 角 线 元 素 
eig 求 特征 值 和 特征 向 量 
fliplr 左右 翻转 
flipud 上 下 翻转 
inv 求 逆 矩阵 
lu 三 角 分 解 
norm 求 范 数 
orth 正 交 化 
poly 求 特征 多 项 式 
qr 正 交 三 角 分 解 
rank 求 和 矩阵 的 秩 
svd 奇异 值 分 解 
trace 求 和 矩阵 的 迹 
Tril 抽取 上 三 角 阵 
Tnu 抽取 下 三 角 阵 


调用 Matlab 函 数 的 方法 如 下 。 子 数 名 后 使 用 一 对 圆 括 号 括 住 提 供给 
阔 数 的 参数 ， 如 sin(t)。 如 果 函 数 有 返回 值 ， 但 调用 者 没有 指定 接收 返回 
值 的 变量 ， 系 统 会 使 用 默认 的 ans 变 量 存储 返回 值 。 如 果 函 数 返 回 多 个 
值 ， 则 ans 中 只 保留 第 一 个 返回 值 ， 因 此 对 于 这 种 情况 应 显 式 地 使 用 癌 
量 来 接收 返回 值 ， 如 下 所 示 。 

[VD] =eigs(A) ; % 计 算 窃 阵 A 的 特征 值 和 特征 癌 量 ， 返 回 值 中 V 为 
特征 同 量 ，D 为 特征 值 

使 用 函数 还 应 当 注 意 几 点 。 

(1) 函数 只 能 出 现在 等 式 的 右边 。 

(2) 每 个 函数 依 原型 不 同 ， 对 自 变 量 的 个 数 和 类 型 有 一 定 的 要 
求 ， 如 sin 和 sind 函 数 。 

(3) 函数 允许 按照 规则 舱 套 ， 比 如 sin(acos(0.5))。 








2.1.9 Matlab 程 序 流程 控制 


Matlab 提供 了 程序 流程 分 支 控制 的 语句 ， 它 们 的 用 法 和 C/C++ 中 几 
乎 完全 一 致 ， 如 表 2.10 所 示 。 


表 2.10 程序 流程 控制 方法 


语 名 规范 写法 备 注 


if expression 1 如 果 elseif 使 用 的 层次 较 多 , 可 以 考虑 转 而 
statementsl 使 用 switch 
elseif expression2 
if.. .elseif...else statements2 


else expression3 





statements3 
end 
for index=start:increment:end increment 指定 步 进 值 ， 省 略 则 默认 为 1。 
for statements 可 以 嵌 套 使 用 
end 
while expression 同样 可 以 菩 套 使 用 
while statements 
end 
break - 终止 while 或 for 循环 的 执行 
continue - 直接 跳 到 下 一 个 循环 
switch expression 没有 默认 的 fall-through， 因 而 不 需要 使 用 
case expressionl 配套 的 break 语句 
statements1 


case expression2 
switch 


statements2 
otherwise 
statements_other 
end 
return - 返回 调用 函数 





1. 简要 示例 

在 后 面 将 多 次 使 用 这 些 语句 ， 因 而 ， 在 此 给 出 几 个 简单 的 例子 。 读 
者 可 以 在 金 羽 图 书 论坛 (http://bbs.book95.com)〉 的 “ 金 羽 图 书 与 答疑 * 板 
块 与 本 书 同名 的 主题 帖子 附件 中 的 chapter2/code 目 录 下 找到 示例 2.1 一 
2.3 所 对 应 的 m 文 件 ， 也 可 以 通过 菜单 “File” “New” 人 全 “ML-EFiles” 新 建 
一 个 M 文 件 ， 在 出 现 的 窗口 中 粘贴 这 些 代 码 ， 然 后 运行 。 在 非 注 释 行 处 
按 下 F12 可 以 设置 断 点 ， 按 下 F5 键 可 以 运行 程序 。 

[ 例 2.1]if 语 句 和 for 循 环 及 其 散 套 。 

%ex2_ 1.m 

arg=input(Input argument:); 9% 提示 输入 arg 变 量 

total = 0; detail = 0; 

% 证 语句 开始 





if(arg==1) 
% 外 层 for 语 句 开 始 
for i=1:1:5 
total = total + 1; 
% 内 层 for 语 句 开 始 
for j=1:0.1:2 
detail = detail + total; 
% 内 层 for 语 句 结束 
end 
% 外 层 for 语 句 结束 
end 
% if 语 句 的 男 一 分 文 
elseif (arg=2) 
total = 0; 
detail = total; 


% 站 语句 的 其 他 所 有 分 文 


else 

error('Invalid arguments!"); 
% 让 语句 结 
end 


detail % 显示 detail 变 量 

(请 注音 本 例 中 分 写 的 使 用 ) 
[ 例 2.2] 与 例 2.1 类 似 的 功能 ， 使 用 switch 分 文 和 while 循 环 。 
2%6ex2_2.m 


arg=input(Input argument: ); 





total = 0; detail = 0; 
% Switch 语句 开始 


Switch arg 
% 分 文 1 
case 1 
i=1; 
% 外 层 while 语 句 开始 
while (i<=5) 
total = total + 1:; 
i=i+1; 
j=1; 
% 内 层 while 语 句 开 始 
while (j<=2); 
detail = detail + total; 
j=j+0.1; 
% 内 层 while 语 句 结束 
end 
% 外 层 while 语 句 结 
end 
% 分 文 2 
case 2 
total = 0; 
detail = total; 
% 分 文 其 他 
case others 
error('Invalid arguments'); 
% switch 语 句 结 
end 


detail 


总 结 这 两 个 例子 ， 可 以 及 现 ， 在 分 文 较 多 时 使 用 switch 是 合算 的 ， 
而 for 和 while 用 于 循环 控制 ， 这 一 点 与 C/C++ 是 完全 相同 的 。 但 是 ， 相 对 
于 C/C++，Matlab 有 一 个 突出 的 优点 ， 就 是 可 以 自动 生成 元 系 之 间 有 具有 
特定 间隔 的 矩阵 ， 从 而 避免 使 用 某 些 循环 ， 这 里 仅仅 使 用 二 维 的 情况 举 
例 。 
[ 例 2.3] 产 生 一 幅 亮 度 按 对 角 线 方 同 的 余弦 规律 变化 的 灰 度 图 ， 比 较 
一 维 方法 和 二 维 方法 所 需 的 时 间 。 
A =rand(3000, 3000); 
f = zeros(3000, 3000); 
u0 = 100; v0 = 100; 
tic; % 开始 计时 
% 一 维 方法 
% 外 层 for 循 环 开始 
for r=1:3000 
uOx=u0*(r-1); 
% 内 层 for 循 环 开始 
for c=1:3000 
vOy=vO*(c-1); 
f(r,c) = A(r,c) * cos(uOx+vOy); 
% 内 层 for 循 环 结束 
end 
% 外 层 for 循 环 结束 
end 
tl=toc % 停止 计时 并 记录 时 间 到 tl 
tic; 9% 重新 开始 计时 
% 二 维 方法 
r = 0:3000-1; 


c= 0:3000-1; 

[C, R] = meshgrid(c, 7); 

% meshgrid 是 生成 网 格 坐 标的 函数 ， 实 际 就 是 生成 需要 的 二 维 像 素 
点 的 坐标 拟 合 表示 。 

9% 建议 读者 在 这 里 中 断 ， 观 察 一 下 C 和 R 甜 阵 的 内 容 。 

g=A.*cos(u0.*R+v0.*C); 

9% 系 统 将 目 动 执 行 “循环 操作， 实质 是 对 R 和 C 中 每 个 数据 按照 指定 
公式 操作 

t2 =toc 9% 停 止 计时 并 将 计时 值 保 存 到 t2 

在 运行 之 后 ， 我 们 发 现 ， 包 和 远 小 于 t1。 因 此 ， 在 用 Matlab 对 数字 图 
像 按 像素 进行 操作 时 ， 需 要 尽 可 能 地 避免 使 用 笨拙 的 多 层 咀 套 循环 。 

2. meshgrid 气 数 

例 2.3 中 用 到 的 meshgrid 函 数 用 于 根据 给 定 的 横 纵 坐标 点 生成 坐标 网 
格 ， 以 便 计 算 二 元 函数 的 取 值 ， 在 绘制 三 维 曲 面 时 常常 会 用 到 它 。 其 调 
用 方式 如 下 。 

[X,Y|] = meshgrid(x, y) 

参数 说 明 

e X 为 输入 的 横 坐 标 。 

e y 为 输入 的 纵 坐 标 。 

返回 值 

e X 和 Y 为 输出 采样 点 的 横 坐 标 惩 阵 和 纵 坐 标 惩 阵 ，X 阵 和 Y 阵 的 元 
素 分 别 为 对 应 位 置 点 的 横 坐 标 和 纵 坐 标 。 

下 面 以 绘制 二 维 蜗 斯 函数 曲面 为 例 说 明 meshgrid 的 用 法 。 

中 心 在 原点 的 二 维 高 斯 函数 表达 式 如 下 。 











H(uv)=et!* lo 


下 面 的 程序 分 别 为 uH 和 V 赋 值 [-10:0.1:10]， 令 a=3， 使 用 meshgrid 函 数 
生成 网 格 ， 并 计算 函数 值 ，《〈 注 意 这 里 使 用 的 是 .^ 和 ./， 而 不 是 ^A 和 /， 
为 计算 的 对 象 是 矩阵 中 的 元 素 ) ， 然 后 再 使 用 mesh 函 数 将 其 显示 到 绘 
图 窗口 中 。 

u = [-10:0.1:10]; 

V=[-10:0.1:10]; 

[U,V] = meshgrid(u,v); 

H = exp(-(U.A2 + V.A2)./2/3A2); 

mesh(u, v, H); 

% mesh 函数 是 绘制 三 维 曲 面 的 函数 ， 第 一 个 和 第 二 个 参数 分 别 为 X 
轴 和 y 轴 的 坐标 点 序列 ， 第 三 个 参数 为 在 由 坐标 

点 序列 确定 的 每 一 个 方 格 点 上 的 函数 值 

生成 的 图 像 如 图 2.7 所 示 。 








A 图 2.7 高 斯 函数 曲面 


优化 小 技巧 

提前 分 配 和 矩阵 内 存 

这 个 技巧 与 动态 内 存 的 使 用 有 关 。 在 C/C++ 里 ， 使 用 大 块 动态 内 存 
往往 意味 着 堆 操 作 ， 而 当 分 配 的 动态 内 存 零 散 无 序 时 ， 会 产生 大 量 内 存 
碎片 ， 进 而 导致 内 存 分 配 和 回收 效率 降低 。 所 以 ， 可 以 事先 分 配 一 块 足 
够 大 的 空间 (当然 ， 不 是 过 大 )〉 以 尽量 减少 内 存 碎片 的 产生 。 事 实 上 ， 
Matlab 中 分 配 动态 内 存 远 没有 C/C++ 那样 麻烦 ， 只 需要 类 似 如 下 一 条 语 
句 即 可 。 

memo = zeros(1024, 128 ); 

这 条 语句 本 来 是 用 于 构造 一 个 元 素 全 部 为 零 的 怎 阵 ， 但 同时 很 目 然 
地 也 就 分 配 了 一 块 足够 大 的 空间 。 











2.1.10 M 文 件 编写 


M 文 件 和 C/C++ 中 ccpp 文 件 类 似 ， 束 是 存储 Matlab 代 码 并 可 以 执行 
的 文件 。Matlab 的 源 代码 文件 可 以 直接 执行 而 不 需 编 译 〈 也 可 以 通过 编 
译 来 使 代码 运行 得 更 快 ) 。 很 多 情况 下 ，M 文 件 用 于 封装 一 个 功能 函数 
从 而 提供 茶 些 特定 功能 。 一 般 来 说 ，M 文 件 以 文本 格式 人 存储， 执行 顺 序 
从 第 1 行 开始 同 下 ， 过 到 终止 语句 结束 ， 用 户 可 以 在 M 文 件 中 定义 函数 
和 过 程 。 

M 文 件 可 以 使 用 任何 文本 编辑 占 编 写 ， 但 最 常 使 用 的 还 是 Matlab 目 
市 的 M 文 件 编辑 器 。 如 果 是 编写 函数 ， 最 好 将 它 放 在 Matlab 的 搜索 路 径 
列表 中 的 茶 个 目录 下 ， 并 与 系统 自 带 的 M 文 件 分 开 ， 以 便 管理 。 

对 于 位 于 当前 工作 目录 中 的 M 文 件 ， 可 以 直接 在 命令 行 输入 其 文件 
名 来 运行 它 。 作 为 函数 时 ，M 文 件 也 可 以 接受 参数 。 

稍 后 将 提供 一 个 Matlab 自 带 M 文 件 的 例子 ， 并 给 予 简 单 分 析 。 











2.1.11 Matlab 函数 编写 


1.， 函数 语法 

Matlab 函 数 通 名 在 M 文 件 中 定义 ， 一 个 文件 可 以 定义 多 个 函数 。 一 
个 Matlab 函 数 通 种 包含 以 下 组 成 部 分 。 

e 国 数 定义 行 

function [outputs] = name(inputs) 

Matlab 人 允许 返回 多 个 参数 (outputs) ， 如 果 只 返回 一 个 参数 ， 可 以 
省 略 方 括号 。 需 要 注意 的 是 ， 输 入 参数 是 使 用 圆 括号 括 起 来 的 。 例 如 ， 
如 果 要 定义 一 个 用 于 平滑 图 像 的 函数 imsmooth， 可 以 将 定义 行书 写 如 
下 

function [imgOut, retCode] = imsmooth(imglIn, args) 

有 某 些 函数 可 能 没有 输出 参数 ， 那 么 就 需要 在 省 略 方 括号 及 其 中 内 容 
的 同时 ， 省 略 等 号 。 于 是 无 返回 值 的 函数 束 需 要 定义 为 如 下 所 示 。 

function imsmooth(imglIn, args) 

Matlab 人 允许 区 分 函数 名 的 前 63 个 字母 ， 多 出 的 字母 将 被 忽略 。 函 数 
的 命名 规则 与 C/C++ 类 似 ， 必 须 以 字母 开头 ， 可 以 包含 字母 、 数 字 和 下 
划 线 ， 但 不 能 包含 空格 。 

函数 可 以 在 其 他 的 M 函 数 中 被 调用 ， 也 可 以 在 命令 行 直接 调用 。 调 
用 函数 的 方法 很 简单 ， 只 需要 写 出 图 数 定义 中 除了 function 之 外 的 部 分 
即 可 。 示 例如 下 。 

[a,b] = imsmooth(l,arg); 

e@“H1” 行 

“H12” 行 是 M 文 件 中 的 第 一 个 注释 行 《 即 以 百 分 号 开始 的 行 ) ， 它 必 
须 暴 跟着 函数 定义 行 ， 中 间 不 能 有 空 行 ， 这 一 行 的 百 分 号 前 也 不 能 有 至 
白字 符 或 缩 进 。 这 一 行 的 内 容 将 在 使 用 heljp 命 令 时 显示 在 第 一 行 ， 而 
lookfor 命 令 查 找 H1 行 中 的 指定 关键 词 ， 并 在 结果 的 右 侧 列 显 示 H1 行 。 
































一 个 典型 的 H1 行 的 例子 如 下 。 

% IMSMOOTH Perform smooth operation on specified image with 
certain arguments. 

这 样 ，smooth 函 数 在 lookfor 命 令 碍 找 的 时 候 就 会 显示 如 下 。 

IMSMOOTH SMOOTH Perform smooth operation on specified 
image with certain arguments. 

e 帮助 文本 

帮助 文本 的 位 置 和 约定 与 H1 行 类 似 ， 只 能 紧 跟 H1 行 ， 中 间 不 能 
任何 空 行 或 者 缩 进 。 同 样 ， 帮 助 文本 的 本 质 就 是 注释 行 ， 因 而 需要 以 % 
J 

Matlab 通 过 判断 是 否 紧 跟 函数 定义 来 判断 一 个 注释 行 究竟 是 H1 行 、 
帮助 文本 还 是 普通 注释 。 因 此 可 以 在 加 入 一 个 或 多 个 空 行 后 加 入 普通 注 
释 ， 使 用 HELP 命 令 将 不 会 显示 普通 注释 的 内 容 。 

e 呐 数 体 和 备注 

这 些 部 分 的 编写 方式 和 普通 的 Matlab 程序 类 似 ， 如 果 有 返回 值 ， 
应 在 函数 体 中 为 输出 变量 赋值 。 

2. 一 个 M 文 件 的 例子 片断 -imfinfo.m 

(可 以 在 命令 行 输入 edit imfinfo 查 看 完整 源 文件 ) 

function info = imfinfo(filename, format) ”% 了 函数 定义 

%IMFINFO Information about graphics file. %HI1 行 

% INFO= IMFINFO(FILENAME,FMT) returns a structure whose 
% 帮 助 文 本 

% fields contain information about an image in a graphics 


2% file. FILENAME is a string that specifies the name of the 











% graphics file, and FMT is a string that specifies the format 
% of the file. The file must be in the current directory or in 
% adirectory on the Matlab path. If IMFINFO cannot find a 


% 


file named FILENAME, it looks for a file named 


FILENAME.FMT. 


% 
% 
% 
% 
% 
more 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 


The possible values for FMT are contained in the file format 


registry, which is accessed via the IMFORMATS command. 


If FILENAME is a TIFF, HDF, ICO, GIF, or CUR file containing 


than one image, INFO is a structure array with one element for 
each image in the file. For example, INFO(3) would contain 


information about the third image in the file. 


INFO = IMFINFO(FILENAME) attempts to infer the format of the 


file from its content. 


INFO = IMFINFO(URL.,...) reads the image from an Internet URL. 
The URL must include the protocol! type (e.g., "http://"). 


The set of fields in INFO depends on the individual file and 
its format. However, the first nine fields are always the 
same. These common fields are: 


Filename A string containing the name of the file 


FileModDate A string containing the modification date of 
the file 


26 
26 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
% 
INFO 


FileSize An integer indicating the size of the file in 


bytes 


Format A string containing the file format, as 
specified by FMT; for formats with more than one 
possible extension (e.g., JPEG and TIFF files), 


the first variant in the registry is returned 


FormatVersion A string or number specifying the file format 


version 


Width An integer indicating the width of the image 


in pixels 


Height An integer indicating the height of the image 


in pixels 


BitDepth An integer indicating the number of bits per 


pixel 


Colorlype A string indicating the type of image; this could 
include, but is not limited to, truecolor for a 
truecolor (RGB) image, 'grayscale', for a grayscale 


intensity image, or 'indexed' for an indexed image. 


If FILENAME contains Exif tags (JPEG and TIFF only), then the 


2% struct may also contain 'DigitalCamera' or 'GPSInfo' (global 


% positioning system information) fields. 


% The value of the GIF format's 'DelayTime' field is given in 
hundredths 


% of seconds. 


% 

% Example: 

% 

% info = imfinfo(Cngc6543a.jpg); 
% 


% Seealso IMREAD, IMWRITE,IMFORMATS. 
% Copyright 1984-2008 The MathWorks, Inc. 
% $Revision: 1.1.6.14 $ $Date: 2009/11/09 16:27:13 $ 
error(nargchk(1, 2, nargin, 'struct”)); 。% 了 函数 体 和 注释 
... 《函数 体 ) 
2% Delete temporary file from Internet download. 
if (isUrl) 
deleteDownload(filename); 


end 


2.2 Matlab 类 型 及 其 存储 方 子 


在 1.1.3 小 节 介 绍 数字 图 像 的 分 类 时 ， 曾 接触 到 一 些 主 要 的 图 像 类 
型 。 本 市 我 们 就 来 看 一 看 这 些 主 要 的 图 像 类 型 在 Matlab 中 是 如 何 存 储 和 
表示 的 ， 主 要 包括 党 度 图 像 、RGB 图 像 、 索 引 图 像 、 二 值 图像 和 多 帧 图 
像 。 





1. 亮度 图 像 〈Intensity Image) 

亮度 图 像 即 灰 度 图 像 。Matlab 使 用 二 维和 矩阵 存储 亮度 图 像 ， 和 矩阵 中 
的 每 个 元 素 直 接 表 示 一 个 像素 的 亮度 〈 灰 度 ) 信息 。 例 如 ， 一 个 200 像 
素 x300 像 素 的 图 像 被 存储 为 一 个 200 行 300 列 的 矩阵 ， 可 以 使 用 2.1.5 小 
节 介 绍 的 选取 和 矩阵 元 素 ( 或 子 块 的 方式 来 选择 图 像 中 的 一 个 像素 或 一 
个 区 域 。 

如 果 和 矩阵 元 素 的 类 型 是 双 精 度 的 ， 则 元 素 的 取 值 范围 是 0~1; 如 
果 是 8 位 无 符号 整数 ， 则 取 值 范围 0 一 255。 数 据 0 表 示 黑 色 ， 而 1 (或 
255) 表示 最 大 亮度 〈 通 常 为 白色 ) 。 

图 2.8 所 示 是 一 个 使 用 双 精 度 和 矩阵 存储 亮度 图 像 的 例子 。 

2. RGB 图 像 (RGB Image) 

RGB 图 像 使 用 3 个 一 组 的 数据 表达 每 个 像素 的 颜色 ， 即 其 中 的 红 
色 、 绿 色 和 蓝 色 分 量 。 在 Matlab 中 ，RGB 图 像 被 存储 在 一 个 mxnx3 的 三 
维 数组 中 。 对 于 图 像 中 的 每 个 像素 ， 存 储 的 三 个 颜色 分 量 合成 像素 的 最 
终 颜 色 。 例 如 ，RGB 图 像 I 中 位 置 在 11 行 40 列 的 像素 的 RGB 值 为 
I(11,40,1:3) 或 1(11,40,:)， 该 像素 的 红色 分 量 为 I(11,40,1)， 葛 色 分 量 为 
I(11,40,3)。 而 I(:,:,1) 则 表示 整个 的 红色 分 量 图 像 。 
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A 图 2.8 Matlab 中 亮度 图 像 的 表示 方法 





RGB 图 像 同样 可 以 由 双 精 度数 组 或 8 位 无 符号 整数 数组 人 存储。 图 2.9 
所 示 是 一 个 使 用 双 精 度数 组 存储 RGB 图 像 的 例子 。 
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A 图 2.9 Matlab 中 RGB 图 像 的 表示 方式 


3. 索引 图 像 (Indexed Image) 

索引 图 像 往 往 包 含 两 个 数组 : 一 个 图 像 数 据 窍 阵 〈Image Matrix) 
和 一 个 颜色 索引 表 (Colormap) 。 对 应 于 图 像 中 的 每 一 个 像素 ， 图 像 数 
据 数组 都 包含 一 个 指向 颜色 索引 表 的 索引 值 。 

颜色 索引 表 是 一 个 mx3 的 双 精 度 型 和 矩阵， 每 一 行 指定 一 种 颜色 的 三 
个 RGB 分 量 ， 即 color = [RG B]。 其 中 R、G、B 是 实数 类 型 的 双 精 度 
数 ， 取 值 0 一 1。0 表 示 全 黑 ，1 表 示 最 大 亮度 。 图 2.10 给 出 了 一 个 索引 图 
像 的 实例 ， 注 意图 像 中 的 每 个 像素 都 用 整数 表示 ， 其 含义 为 颜色 索引 表 
中 对 应 颜色 的 索引 。 

图 像 数 据 矩 阵 和 颜色 索引 表 的 关系 取决 于 图 像 数 据 矩 阵 中 存储 的 数 
据 类 型 是 双 精 度 类 型 还 是 8 位 无 符号 整数 。 

如 果 图 像 数据 使 用 双 精 度 类 型 存储 ， 像 素数 据 1 表示 颜色 索引 表 中 
的 第 一 行 ， 像 素数 据 2 表示 颜色 索引 表 中 的 第 二 行 ， 以 此 类 推 。 而 如 果 
图 像 数 据 使 用 8 位 无 符号 整数 存储 ， 则 存在 一 个 额外 的 偏 移 量 -1， 像 素 
数据 0 表示 颜色 索引 表 中 的 第 一 行 ， 而 1 表示 索引 表 中 的 第 二 行 ， 以 此 类 
推 。 




































图 像 数 据 托 阵 
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A 图 2.10 Matlab 中 索引 图 像 的 表示 方法 


8 位 方式 存储 的 图 像 可 以 支持 256 种 颜色 (或 256 级 灰 度 ) 。 图 2.10 
中 ， 数 据 和 矩阵 使 用 的 是 双 精 度 类 型 ， 所 以 没有 偏 移 量 ， 数 据 5 表 示 颜 色 
表 中 的 第 5 种 颜色 。 

4. 二 值 图 像 (Binary Image) 

在 二 值 图 像 中 ， 像 素 的 颜色 只 有 两 种 可 能 取 值 : 黑 或 白 。Matlab 将 
二 值 图 像 存 储 为 一 个 二 维 窍 阵 ， 每 个 元 素 的 取 值 只 有 0 和 1 两 种 情况 ，0 
表示 黑色 ， 而 1 表示 白色 。 

二 值 图 像 可 以 被 看 做 是 一 种 特殊 的 只 存在 黑 和 白 两 种 颜色 的 亮度 图 
像 ， 当 然 ， 也 可 以 将 二 值 图 像 看 做 是 颜色 索引 表 中 只 存在 两 种 颜色 〈 黑 
和 和 白 ) 的 索引 图 像 。 

Matlab 中 使 用 uint8 型 的 逻辑 数组 存储 二 值 图 像 ， 通 过 一 个 逻辑 标志 


表示 数据 有 效 范围 是 0 一 1， 而 如 果 思 辑 标志 未 梓 置 位 ， 则 有 效 范围 为 0 
一 255。 


二 值 图 像 的 表示 方法 如 图 2.11 所 示 。 





A 图 2.11 Matlab 中 二 值 图 像 的 表示 方法 


5. 多 帧 图 像 《Multiframe Image Array) 

对 于 某 些 应 用 ， 可 能 要 处 理 多 幅 按 时 间或 视角 方式 连续 排列 的 图 
像 ， 称 之 为 多 帧 图 像 〈 所 谓 “ 帧 ?就 是 影像 动画 中 最 小 单位 的 单 幅 影像 画 
面 ) ， 如 核磁 共振 成 像 数 据 或 视频 片断 。Matlab 提 供 了 在 同一 个 矩阵 中 
存储 多 帧 图 像 的 方法 ， 实 际 上 就 是 在 图 像 矩 阵 中 增加 一 个 维度 来 代表 时 
间或 视角 信息 。 例 如 ， 一 个 拥有 5 张 连续 的 400 像 素 x300 像 素 的 RGB 图 像 
的 多 帧 连续 片断 的 存储 方式 是 一 个 400x300x3x5 的 矩阵， 一 组 同样 大 小 
的 灰 度 图 像 则 可 以 使 用 一 个 400x300x1x5 的 矩阵 来 存储 。 

如 果 多 帧 图 像 使 用 索引 图 像 的 方式 存储 ， 只 有 图 像 数 据 和 矩阵 被 按 多 
帧 形式 存储 ， 而 颜色 索引 表 只 能 公用 。 因 此 ， 在 多 帧 索引 图 像 中 ， 所 有 
的 索引 图 像 公用 一 个 颜色 索引 表 ， 进 而 只 能 使 用 相同 的 颜色 组 合 。 

e@ cat 国 数 

cat 函 数 可 以 在 指定 维度 上 连接 数组 ， 其 调用 方式 如 下 。 

CAT(DIM, A, B); 

或 











CAT(DIM, Al A2, ...); 
此 函数 在 第 DIM 维 度 将 第 2 至 第 n 个 参数 提供 的 数组 连接 起 来 。 于 
， 夯 要 构造 一 个 由 5 幅 RGB 图 像 构 成 的 多 帧 图 像 组 ， 使 用 的 命令 如 








也 


ANIM=CAT(4, A1, A2, A3, A4, A5); 

e 选择 存储 方式 时 的 限制 

图 像 处 理工 具 箱 中 的 某 些 函数 只 能 处 理 图 像 矩 阵 中 的 前 2 维 或 前 3 维 
信息 。 当 然 ， 也 可 以 使 用 它们 处 理 拥 有 4 个 维度 或 5 个 维度 的 RGB 网 像 或 
者 连续 图 像 序列 ， 但 这 需要 单独 处 理 每 帧 符合 要 求 的 亮度 /二 值 / 索 
引 /RGB 图 像 。 例 如 ， 显 示 ANIM 中 的 第 3 帧 图 像 需 要 使 用 如 下 方式 。 














函数 imshow 作 用 是 显示 一 帧 图 像 ， 详 见 2.5 节 。 

注意 

如 果 辐 一 个 函数 传递 了 超过 其 所 能 够 处 理 的 维度 的 图 像 矩阵 ， 那 么 
结果 可 能 是 不 确定 的 。 某 些 函 数 的 行为 可 能 是 处 理 图 像 的 第 一 帧 或 第 一 
个 颜色 维度 ， 但 某 些 函数 可 能 带 来 不 确定 的 行为 和 处 理 结 

默认 情况 下 ，Matlab 将 绝 大 多 数 数 据 存储 为 双 精 度 类 型 〈64 位 浮 点 
数 ) 以 保证 运算 的 精确 性 。 而 对 于 图 像 而 言 ， 这 种 数据 类 型 在 图 像 尺寸 
较 大 时 可 能 并 不 理想 。 例 如 ， 一 张 1000 像 素 见 方 的 图 像 拥 有 一 百 万 个 
像素 ， 如 果 每 个 像素 用 64 位 二 进 制 数 表示 ， 总 共 需 要 大 约 8MB 的 内 存 空 
间 。 

为 了 减 小 图 像 信 息 的 空间 开销 ， 可 以 将 图 像 信 息 存 为 8 位 无 符号 整 
型 数 (uint8) 和 16 位 无 符号 整 型 数 (uint16〉 的 数组 ， 这 样 只 需要 双 精 
度 浮 点 数 八 分 之 一 或 四 分 之 一 的 空间 。 在 上 述 3 种 存储 类 型 中 以 双 精 度 
和 uint8 使 用 最 多 ，uint16 的 情况 与 uint8 大 致 类 似 。 











2.3 Matlab 的 图 像 转换 


1. 图 像 存 储 格 式 的 互相 转换 

有 时 必须 将 图 像 存储 格式 加 以 转换 才能 使 用 茶 些 图 像 处 理沙 数 。 例 
如 ， 当 使 用 某 些 Matlab 内 置 的 滤 镜 时 ， 需 要 将 索引 图 像 转换 为 RGB 图 像 
或 者 灰 度 图 像 ，Matlab 才 会 将 图 像 滤 镜 应 用 于 图 像 数 据 本 身 ， 而 不 是 过 
引 图 像 中 的 颜色 索引 值 表 〈 这 将 产生 无 意义 的 结果 ) 。 

Matlab 提供 了 一 系列 存储 格式 转换 函数 ， 如 表 2.11 所 示 。 它 们 的 
名 字 都 很 便于 记忆 ， 例 如 ind2gray 可 以 将 索引 图 像 转化 为 灰 度 图 像 。 


表 2.11 图 像 格式 转换 函数 





函 数 描 述 
使 用 抖动 的 方式 创建 较 小 颜色 信息 量 的 图 像 。 例 如 从 灰 度 图 转换 成 黑白 图 , 或 者 从 RGB 图 转换 成 索引 
dither 图 。 多 数 时 候 返回 uint8 类 型 的 图 像 ， 如 果 输 出 图 像 是 包含 大 于 256 色 颜 色 表 的 索引 图 ， 则 使 用 uint16 
类 型 





续 表 


从 灰 度 图 转换 成 索引 图 。 多 数 时 候 返 回 vint8 类 型 的 图 像 ， 如 果 输 出 图 像 是 包含 大 于 256 色 颜 色 表 的 索 
gray2ind 引 图 ， 则 使 用 uint16 类 型 。 
[X,MAP] = gray2ind(LN)， 输 出 了 为 图 像 数 据 ，MAP 为 颜色 表 ; 输入 了 为 原始 图 像 ，N 为 索引 颜色 数目 
使 用 闽 值 法 从 灰 度 图 创建 索引 图 。 多 数 时 候 返 回 uint8 类 型 的 图 像 ， 如 果 输 出 图 像 是 包含 大 于 256 色 颜 
色 表 的 索引 图 ， 则 使 用 uint16 类 型 。 
grayslice A=grayslice(L,N) 
X=grayslice(L. 1) 
为 输出 的 索引 图 像 ，N 为 需要 均匀 划分 的 立 值 个 数 ，V 为 给 定 的 闽 值 向 量 
使 用 阔 值 法 从 厌 度 图 、 索 引 图 或 RGB 图 创建 二 值 图 。 返回 逻辑 型 抵 阵 存储 的 图 像 。 
im2bw BW = im2bw(I,LEVEL) 或 BW = im2bw(XMAPLEVEL)，LEVEL 为 指定 的 效 值 。 关 于 计算 与 确定 闽 值 
的 方法 ， 在 后 面 的 章节 中 介绍 
从 索引 图 创建 灰 度 图 。 返 回 图 像 与 原 图 像 存 储 类 型 相同 。 
I= ind2gray(X,MAP) 
从 索引 图 创建 RGB 图 ， 返 回 double 类 型 存储 的 图 像 。 
RGB = ind2rgb(X,MAP) 
使 用 归 一 化 方法 将 一 个 矩阵 中 的 数据 扩展 成 对 应 的 灰 度 图 ， 返 回 图 像 使 用 double 类 型 存储 。 
mat2gray 1 = mat2gray(4,[AMIN AMAX])，AMIN 和 AMAX 指定 了 函数 在 转换 时 使 用 的 下 限 和 上 限 。4 中 低 于 
AMIN 和 高 于 AMAX 的 数据 将 被 截取 到 0 和 1 
从 RGB 图 创建 灰 度 图 ， 返 回 图 像 与 原 图 像 存储 类 型 相同 。 
1=Tgb2gray(RGB) 
也 可 以 处 理 颜 色 表 ， 调 用 方式 如 下 。 
NEWMAP= rgb2gray(MAP)， 此 时 输入 输出 类 型 均 为 double 
从 RGB 图 创建 索引 图 。 多 数 时 候 返 回 uint8 类 型 的 图 像 ， 如 果 输 出 图 像 是 包含 大 于 256 色 颜 色 表 的 索 
引 图 ， 则 使 用 uint16 类 型 。 


rgb2ind [X,MAP] = rgb2ind(RGB,N) 
X=rgb2ind(RGB,MAP) 


N 为 颜色 表 中 颜色 的 数目 ，MAP 为 输出 或 给 定 的 颜色 表 


[Gal 


泣 


ind2gray 


ind2rgb 


rgb2gray 


也 可 以 使 用 一 些 和 矩阵 操作 函数 实现 某 些 格 式 转换 。 例 如 ， 下 面 的 语 
句 可 以 将 一 幅 灰 度 图 像 转 换 为 RGB 图 像 。 

RGBIMAGE = CAT(3, GRAY, GRAY, GRAY ); 

2. 图 像 数 据 类 型 转换 

Matlab 图 像 处 理工 具 箱 中 文 持 的 默认 图 像 数 据 类 型 是 uint8， 使 用 
imread 函 数 读 图 像 文件 一 般 都 为 uint8 类 型 。 然 而 ， 很 多 数学 函数 如 sin 
等 并 不 支持 double 以 外 的 类 型 ， 例 如 当 试 图 对 uint8 类 型 直接 使 用 sin 函 数 
进行 操作 时 ，Matlab 会 提示 如 下 的 错误 信息 。 

I = imread(‘coins.png”); % 读 入 一 幅 unit8 图 像 

sin(T); 


??? Undefined function or method 'sin' for input arguments of type 
"uint8' 

针对 这 种 情况 ， 除 了 使 用 2.1.4 小 节 介 绍 的 强制 类 型 转换 方法 外 ， 还 
可 利用 图 像 处 理工 具 箱 中 的 内 置 图 像 数 据 类 型 转换 函数 。 内 置 转换 函数 
的 优势 在 于 它们 可 以 帮助 处 理 数据 偏 移 量 和 归 一 化 变换 ， 从 而 简化 了 我 
们 的 编程 工作 。 

一 些 第 用 的 图 像 类 型 转换 函数 如 表 2.12 所 示 。 





表 2.12 图 像 数据 类 型 转换 函数 





im2uint8 将 图 像 转换 为 uint8 类 型 
im2uint16 将 图 像 转换 为 uint16 类 型 
im2double 将 图 像 转换 为 double 类 型 





可 以 在 使 用 Matlab 数 学 函数 前 将 图 像 转换 为 double 类 型 ， 而 在 准备 
将 图 像 写 入 文件 时 再 将 其 转换 为 unt8 类 型 ， 如 下 上 所 示 。 

Ld=im2double(Luint8); % 将 uint8 图 像 转换 为 double 类 型 ， 灰 度 范 
围 也 相应 从 [0，255] 归 一 化 至 [0， 

1] 

Iout_d = sin(L_d); % 进 行 数学 计算 

Iout_uint8= im2uint8(Iout_d); 9% 转 换 回 uint8《〈 灰 度 范 围 也 重新 扩展 


到 [0，255]) , 准备 写 入 文件 


2.4 读 取 和 写 


Matlab 可 以 处 理 以 下 的 图 像 文件 类 型 : BMP、HDF、JPEG、PCX、 
TIFF、XWD、ICO、GIFE、CUR。 可 以 使 用 imread 和 imwrite 函 数 对 图 像 
文件 进行 读 写 操作 ， 使 用 imfinfo 函 数 来 获得 数字 图 像 的 相关 信息 。 


1.， imread 郧 数 

imread 函 数 可 以 将 指定 位 置 的 图 像 文 件 读 入 工作 区 。 对 于 除 索 引 图 
像 以 外 的 情况 ， 其 原型 如 下 。 

A = imread(FILENAME, FMT); 

参数 说 明 

e FILENAME 指定 图 像 文 件 的 完整 路 径 和 文件 名 。 如 果 要 读 入 的 文 
件 在 当前 工作 目录 中 或 者 自动 搜索 列表 中 给 出 的 路 径 下 ， 则 只 需 提 供 文 
件 名 。 

e FMT 参数 指定 图 像 文 件 的 格式 所 对 应 的 标准 扩展 名 ， 例 如 GIF 
等 。 如 果 imread 没有 找到 FILENAME 所 指定 的 文件 ， 它 会 尝试 
FILENAME.FMT., 

返回 值 

e A 是 一 个 包含 图 像 数 据 的 和 矩阵。 对 于 灰 度 图 ， 它 是 一 个 m 行 n 列 的 
和 矩阵， 对 于 RGB 真 彩 图 ， 则 是 一 个 mxnx3 的 矩阵 。 对 于 大 多 数 图 像 文 
件 ，A 的 类 型 为 uint8， 而 对 于 某 些 TIFF 和 PNG 图 像 ，A 的 类 型 为 uint16。 

对 于 索引 图 像 ， 情 况 有 所 不 同 ， 此 时 IMREAD 的 调用 形式 如 下 。 

[X, MAP] = imread(FILENAME, FMT); 

此 时 的 返回 值 中 ，X 为 图 像 数 据 和 矩阵 ，MAP 则 是 颜色 索引 表 。 图 
像 中 的 颜色 索引 数据 会 被 归 一 化 到 0 到 1 的 范围 内 。 因 为 ， 对 于 索引 图 
像 ， 不 论 图 像 文件 本 和 喘 使 用 何 种 数据 类 型 ，imread 函 数 都 会 使 用 双 精 度 
类 型 存储 图 像 数据 。 

imread 函 数 还 可 以 处 理 RGBA 等 格式 存储 的 图 像 ， 可 以 通过 在 命令 
窗口 中 输入 help imread 来 查看 Matlab 中 有 关 imread 的 在 线 帮助 信息 

2.IMWRITE 函 数 

imwrite 将 指定 的 图 像 数据 写 入 文件 中 ， 通 过 指定 不 同 的 保存 文件 
扩展 名 ， 可 以 起 到 图 像 格式 转换 的 作用 《参见 例 2.4) 。 其 调用 格式 如 
下 




















imwrite(A, FILENAME, FMT); 

e FILENAME 参 数 指定 文件 名 【不必 包 含 扩展 名 ) 。 

. ee 的 格式 。 

存储 索引 图 像 时 ， 还 需要 一 并 存储 颜色 索引 表 ， 则 此 时 IMWRITE 
是 

imwrite(A, MAP, FILENAME, FMT); 

MAP 是 合法 的 Matlab 颜 色 索 引 表 。 

imwrite 函 数 还 可 以 控制 图 像 文 件 的 很 多 属性 ， 如 TIFF 文 件 格式 所 选 
择 的 彩色 空间 、GIEF 格 式 中 的 透明 色 以 及 图 像 文 件 的 作者 、 版 权 信 息 、 
解析 度 和 创建 软件 等 。 

[ 例 2.4] 读 入 一 幅 tif 图 像 文 件 ， 并 在 写 入 磁盘 时 将 tf 图像 转换 为 bmp 
图 像 。 

>>I=imread('pout.tif”); % 读 入 图 像 

>>whos I % 人 查看 图 像 变 量 信 息 

Name Size Bytes Class 

I 291x240 69840 uint8 array 

Grand total is 69840 elements using 69840 bytes 

% 通 过 whos 命 令 可 以 看 到 读 入 的 高 为 291、 宽 为 240 的 灰 度 图 像 束 
是 一 个 291*240 的 二 维和 矩阵 

>>imwrite(L 'pout.bmp'"); % 将 图 像 写 入 文件 pout.bmp， 同 时 起 到 了 转 
换文 件 类 型 的 作用 

例 2.4 中 的 功能 已 经 被 封装 在 金 羽 图 书 论坛 

(http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖 

子 附件 中 的 “Chapter2/Code 目 录 下 的 ex2_4.m” 文 件 内 。 

3. imfinfo 函 数 

imfinfo 函 数 可 以 读 取 图 像 文 件 中 的 某 些 属性 信息 ， 例 如 修改 日 期 、 
大 小 、 格 式 、 高 度 、 宽 度 、 色 深 、 颜 色 空 间 、 存 储 方 式 等 











imfinfo(FILENAME, FMT); 
e FILENAME 参 数 指定 文件 名 。 
e FMT 参 数 是 可 选 参数 ， 指 定 文件 格式 。 
[ 例 2.5] 查 看 图 像 文件 信息 。 
>>imfinfo('pout.tjf') % 查 看 图 像 文 件 信息 
ans = 
Filename: 'F:\Program 
Files\Matlab\R2011a\toolbox\images\imdemos\pout. 
tif' 
FileModDate: '04- 十 二 月 -2000 13:57:50' 
FileSize: 69004 
Format: ‘tif' 
FormatVersion: [|] 
Width: 240 
Height: 291 
BitDepth: 8 
ColorType: 'grayscale' 
FormatSignature: [73 73 42 0] 
ByteOrder: ittle-endian' 
NewSubFileType: 0 
BitsPerSample: 8 
Compression: 'PackBits' 
PhotometricInterpretation: 'BlackIsZero' 
StripOffsets: [9x1 doublel 
SamplesPerPixel: 1 
RowsPerStrip: 34 
StripByteCounts: [9x1 doublel 


XResolution: 72 
YResolution: 72 
ResolutionUnit: None 
Colormap: [] 
PlanarConfiguration: 'Chunky' 
TileWidth: [] 
TileLength: [] 
TileOffsets: [] 
TileByteCounts: [] 
Orientation: 1 
FillOrder: 1 
GrayResponseUnit: 0.0100 
MaxSampleValue: 255 
MinSampleValue: 0 
Thresholding: 1 
Offset: 68754 


2.5 J 显示 


Matlab 中 一 般 使 用 imshow 函 数 来 显示 图 像 ， 该 函数 可 以 创建 一 个 图 
像 对 象 ， 并 可 以 自动 设置 图 像 的 诸多 属性 ， 从 而 简化 编程 操作 。 这 里 介 
绍 imshow 函 数 的 几 种 常见 调用 方式 。 

1. imshow 函 数 

imshow 函数 用 于 显示 工作 区 或 图 像 文 件 中 的 图 像 ， 在 显示 的 同时 
可 控制 部 分 效果 ， 常 用 的 调用 形式 如 下 。 

imshow(L [low high], param1, valuel, param2, value2, ...) 

imshow(L MAP) 


imshow(filename) 

eI 为 要 显示 的 图 像 算 阵 。 

e 可 选 参数 [low high] 指 定 显 示 灰 度 图 像 时 的 灰 度 范围 ， 灰 上 度 值 低 于 
low 的 像素 被 显示 为 黑色 ， 高 于 high 的 像素 被 显示 为 白色 ， 介 于 low 和 
high 之 间 的 像素 被 按 比例 显示 为 各 种 等 级 的 灰色 。 如 果 将 此 参数 指定 为 
容 矩 阵 [ ]， 则 函数 会 将 图 像 算 阵 中 的 最 小 值 指定 为 ow， 最 大 值 指 定 为 
high， 从 而 达到 灰 度 拉 伸 的 显示 效果 。 这 个 参数 常常 用 于 改善 灰 度 图 像 
的 显示 效果 。 

e@ 可 选 参数 param1、value1、param2、value2 等 可 以 用 来 指定 显示 图 
像 的 特定 方法 。 

e MAP 为 颜色 索引 表 ， 除 了 显示 索引 图 像 ， 这 在 显示 伪 彩 色 图 像 时 
也 可 用 到 。 

e filename 人 参数 指定 图 像 文 件 名 ， 这 样 可 以 不 必 将 图 像 文件 首先 读 
六 工 作 区 。 

[ 例 2.6] 图 像 文件 的 读 取 、 显 示 、 回 写 。 

ex2_6.m 

% 读 取 图 像 文件 

>>I = imread('gantrycrane.png'); 

% 显示 图 像 

>>imshow(D); 

% 写 回 到 文件 

>>imwrite(], 'gantrycrane.tif’, "TIFF'); 

2. 多 幅 图 像 的 显示 

有 时 需要 将 多 幅 图 像 一 起 显示 以 比较 它们 之 间 的 异同 ， 这 在 考察 不 
同 算法 对 同一 幅 图 像 的 处 理 效果 时 尤为 有 用 。 

可 以 在 同一 窗口 或 者 不 同 的 窗口 显示 多 幅 图 像 ， 这 两 种 方式 的 实现 
见 例 2.7。 



































[ 例 2.7] 显 示 多 幅 图 像 。 

% ex2_7.m 

I = imread(*pout.tif”); % 读 取 图 像 
% 在 不 同窗 口 显 示 

figure; % 创 建 一 个 新 的 窗口 


imshow(D); 





figure; 

imshow(I，[ )); 

% 在 相同 窗口 显示 

figure; 

subplot(1, 2,1); 

imshow(D); 

subplot(1,2,2); 

imshow(I，[ )); 

上 述 程序 中 ，figure 函数 用 于 新 创建 一 个 显示 窗口 ， 从 而 避免 新 图 
像 的 显示 和 履 盖 原 图 像 ，subplot(m,n,p) 函 数 的 含义 是 打开 一 个 有 m 行 n 列 图 
像 位 置 的 窗口 ， 并 将 焦点 位 于 第 p 个 位 置 上 。 

注意 

在 多 幅 索 引 图 像 的 显示 中 存在 着 潜在 的 问题 。 由 于 索引 图 像 使 用 的 
颜色 表 可 能 不 同 ， 而 系统 的 全 局 颜色 表 在 默认 情况 下 是 8 位 的 ， 最 多 只 
能 存储 256 种 颜色 ， 这 样 一 来 ， 如 果 所 有 图 像 总 颜色 种 类 超过 256 种 ， 则 
超出 的 部 分 将 不 会 被 正确 显示 。 所 以 ， 通 常 先 使 用 ind2rgb(D 将 图 像 转 
换 为 RGB 模式 。 此 外 ， 也 可 以 使 用 subimage(Lmap)， 这 个 函数 在 显示 
图 像 之 前 会 目 动 将 其 转换 为 RGB 格式 。 

3. 多 帧 图 像 的 显示 

在 显示 多 帧 图 像 时 ， 可 以 显示 多 帧 中 的 一 帧 ， 或 者 将 它们 显示 在 同 
一 个 窗口 内 ， 也 可 以 将 多 帧 图 像 转化 成 电影 播放 出 来 。 这 3 种 方式 的 实 




















现 见 例 2.8。 
[ 例 2.8] 多 幅 图 像 D， 存 储 了 一 组 索引 图 像 ，MAP 为 颜色 索引 表 。 分 
别 以 上 述 的 3 种 方式 显示 它们 。 
>>load mri % 载 入 Matlab 自 带 的 核磁 共振 图 像 
>>imshow(D(:,:,7), map); 9% 显示 多 幅 中 的 一 幅 
% 同一 窗口 显示 





>>figure, montage(D, map); 

% 转化 成 为 电影 

>>figure 

>>mov=immovie(D, map); 

>>colormap(map); ”% 设 定 闫 色 表 

>>movie(mov);。% 播 放电 影 

金 羽 图 书 论坛 (http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ?板块 与 
本 书 同名 的 主题 帖子 附件 中 “chapter2/code” 目 录 下 的 ex2_8.m 文 件 封装 了 
例 2.8 中 的 功能 

4. 图像 的 放 缩 

有 时 需要 将 图 像 的 某 一 部 分 放大 以 查看 局 部 的 详细 情况 。 只 需 输入 
zoom on 命令 即 可 实现 图 像 的 al zoom o 侍 可 以 关闭 图 像 放 纵 功 能 。 打 
开 图 像 放 缩 功 能 之 后 ， 就 可 以 通过 简单 的 鼠标 操作 观察 图 像 细部 了 。 

5. 像素 值 查看 工具 

使 用 imshow 函 数 显示 一 幅 图 像 之 后 ， 可 以 通过 输入 impixelinfo 命 令 
在 最 后 显示 的 图 像 窗 口 的 左下 角 ， 随 鼠标 光标 的 移动 显示 鼠标 指针 所 指 
位 置 处 的 像素 值 ， 如 图 2.12 所 示 。 
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Pixel nfo: (52, 110) 215 


A 图 2.12 像素 查看 兢 


还 可 以 通过 imdistline 命 令 以 交互 的 方式 查看 图 像 中 两 点 之 间 的 距 
离 ， 如 图 2.13 所 示 。 
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>> impixelinfo 
>>lindistline 





imdistline handle with no properties. 
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A 图 2.13 使 用 imdistline 命 令 查 看 距离 
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第 3 章 I 点 运 

对 于 一 个 数字 图 像 处 理 系 统 来 说 ， 一 般 可 以 将 处 理 流 程 分 为 3 个 阶 
段 。 在 获取 原始 图 像 后 ， 首 先是 图 像 预 处 理 阶段 ， 第 二 是 特征 抽取 阶 
段 ， 最 后 才 是 识别 分 析 阶 段 。 预 处 理 阶段 尤为 重要 ， 这 个 阶段 处 理 不 好 
则 后 面 的 工作 根本 无 法 展开 。 

点 运算 指 的 是 对 图 像 中 的 每 个 像素 依次 进行 同样 的 灰 度 变换 运算 。 
设 r 和 s 分 别 是 输入 图 像 f(x,y) 和 输出 图 像 g(x,y) 在 任 一 点 (x,y) 的 灰 度 值 ， 
则 点 运算 可 以 使 用 下 式 定义 。 





s= Jr) (3-1) 





其 中 ， 了 为 采用 的 点 运算 算 子 ， 表 示 在 原始 图 像 和 输出 图 像 之 间 的 
某 种 灰 度 级 映射 关系。 

扩 运 算 第 第 用 于 改变 图 像 的 灰 度 范围 及 分 布 ， 是 图 像 数 字 化 及 图 像 
显示 时 常常 需要 的 工具 。 点 运算 因 其 作用 的 性 质 有 时 也 被 称 为 对 比 度 中 
增强 、 对 比 度 拉 伸 或 灰 度 变换 。 























【 注 】 对 比 度 : 灰 度 图 像 最 大 亮度 与 最 小 亮度 的 比值 。 


本 章 的 知识 和 技术 热点 

e 最 基本 的 图 像 分 析 工 具 一 一 灰 度 直方 图 。 

e 利用 直方 图 辅助 实现 的 各 种 灰 度 变 换 ， 包 括 灰 度 线性 变换 、 伽 马 
变换 、 闭 值 变 换 和 窗口 变换 等 。 

e 两 种 实用 的 直方 图 修正 技术 一 一 直方 图 均衡 化 和 直方 图 规定 化 。 

本 章 的 典型 案例 分 析 

e 基于 直方 图 均衡 化 的 图 像 灰 度 归 一 化 。 





e 和 直方 图 规定 化 。 


3.1 灰 度 直方 图 


灰 度 直方 图 描述 了 一 幅 图 像 的 灰 度 级 统计 信息 ， 主 要 应 用 于 图 像 分 
害 和 网 像 灰 度 变 换 等 处 理 过 程 中 。 


3.1.1 理论 基础 


从 数学 上 来 襄 ， 图 像 直方 图 描述 图 像 的 各 个 灰 度 级 的 统计 特性 ， 它 
是 图 像 灰 度 值 的 函数 ， 统 计 一 幅 图 像 中 各 个 灰 度 级 出 现 的 次 数 或 概率 。 
有 一 种 特殊 的 直方 图 叫做 归 一 化 直方 图 ， 可 以 直接 反映 不 同 灰 度 级 出 现 
的 比率 。 

从 图 形 上 来 说 ， 灰 度 直 方 图 是 一 个 二 维 图 ， 横 坐标 为 图 像 中 各 个 像 
素 点 的 灰 度 级 别 ， 纵 坐标 表示 具有 各 个 灰 度 级 别 的 像素 在 图 像 中 出 现 的 
次 数 或 概率 。 

提示 

如 不 特别 说 明 ， 本 书 中 的 直方 图 的 纵 坐 标 都 对 应 着 该 灰 度 级 别 在 图 
像 中 出 现 的 次 数 ， 而 归 一 化 直方 图 的 纵 坐 标 则 对 应 着 该 灰 度 级 别 在 图 像 
中 出 现 的 概率 。 

灰 度 直方 图 的 计算 是 根据 其 统计 定义 进行 的 。 图 像 的 灰 度 直方 图 是 
一 个 离散 函数 ， 它 表示 图 像 每 一 灰 度 级 与 该 灰 度 级 出 现 频率 的 对 应 天 
系 。 假 设 一 幅 图 像 的 像素 总 数 为 N， 灰 度 级 总 数 为 L， 其 中 灰 度 级 为 g 的 
像素 总 数 为 Ns， 则 这 幅 数 字 图 像 的 灰 度 直方 图 模 坐标 即 为 灰 度 
g (0<g<L 一 1) ， 纵 坐标 则 为 灰 度 值 出 现 的 次 数 Ns。 实 际 上 ， 用 像素 总 
数 N 去 除 以 各 个 灰 度 值 出 现 的 次 数 Ns 即 得 到 各 个 灰 度 级 出 现 的 概率 
Ps=Ns/N=Ns/Z>Ns， 从 而 得 到 归 一 化 的 灰 度 直方 图 ， 其 纵 坐标 为 概率 P,。 








3.1.2 Matlab 实 现 


Matlab 中 的 imhist 函 数 可 以 进行 图 像 的 灰 度 直方 图 运算 ， 调 用 语法 
如 下 。 

imhist(D) 

imhist(l, n) 

[counts,x] = imhist(...) 

参数 说 明 

e I 为 需要 计算 灰 度 直方 图 的 图 像 。 

e n 为 指定 的 灰 度 级 数目 。 如 果 指 定 参 数 n"， 则 会 将 所 有 的 灰 度 级 均 
ST 内 ， 而 不 是 将 所 有 的 灰 度 级 全 部 分 开 。 

返回 值 

e counts 为 直方 图 数据 向 量 。counts(i) 表 示 第 i 个 灰 度 区 间 中 的 像素 
数目 。 

e x 是 保存 了 对 应 的 灰 度 小 区 间 的 同 量 。 

若 调 用 时 不 接收 这 个 函数 的 返回 值 ， 则 直接 显示 直方 图 ; 在 得 到 这 

ee 也 可 以 使 用 stem(x, counts) 来 手工 绘制 直方 图 。 

. 一 般 直 方 图 

| 了 Matlab 中 的 一 张 内 置 示例 图 片 演示 灰 度 直方 图 的 生成 与 
显示 ;7 程序 如 下 。 

I = imread(pout.tif); 9% 读 取 图 像 pout:tif 

figure; % 打 开 一 个 新 窗口 

imshow(]); title(Source); 9% 显 示 原 图 像 

figure; % 打 开 一 个 新 窗口 

imhist(]); title('Histogram"); 9% 显 示 直 方 图 

上 述 程序 的 运行 结果 如 图 3.1 所 示 。 









































(a) 示例 图 片 pouttif 


(b) 灰 度 直方 图 
A 图 3.1 灰 度 直方 图 的 生成 


图 3.1 (b) 中 未 经 归 一 化 的 灰 度 直方 图 的 纵 轴 表示 图 像 中 所 有 像素 
取 到 某 一 特定 灰 度 值 的 次 数 ， 横 轴 对 应 从 0 一 255 的 所 有 灰 度 值 ， 履 着 了 
uint8 存 储 格 式 的 灰 度 图 像 中 的 所 有 可 能 取 值 。 

因为 相近 的 灰 度 值 所 具有 的 含义 往往 是 相似 的 ， 所 以 常常 没有 必要 
在 每 个 灰 度 级 上 都 进行 统计 。 下 面 的 命令 将 0 一 255 总 共 256 个 灰 度 级 平 
均 划 分 为 64 个 长 度 为 4 的 灰 度 区 间 ， 此 时 纵 轴 分 别 统计 每 个 灰 度 区 间 中 
的 像素 在 图 像 中 的 出 现 次 数 。 

。 % 生成 有 64 个 小 区 间 的 灰 度 直方 图 

述 命令 执行 后 效果 如 图 3.2 所 示 。 

tt ee 灰 度 区 间 常 党 被 形 象 
地 称 为 “收集 箱 *”。 在 图 3.2 所 示 的 直方 图 中 ， 由 于 减少 了 收集 箱 的 数目 ， 
使 得 落 入 每 个 收集 箱 的 像素 数目 有 所 增加 ， 从 而 使 直方 岁 更 具 统 计 特 
性 。 收 集 箱 的 数目 一 般 设 为 2 的 整数 次 早 ， 以 保证 可 以 无 需 圆 整 。 








数 ， 
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A 图 3.2 分 为 64 段 小 区 间 的 灰 度 直方 图 


2. 归 一 化 直方 图 

在 imhist 函 数 的 返回 值 中 ，counts 保 存 了 落 入 每 个 区 间 的 像素 的 个 
通过 计算 counts 与 图 像 中 像素 总 数 的 商 可 以 得 到 归 一 化 的 直方 网 。 
绘制 有 32 个 灰 度 区 间 的 归 一 化 直方 图 的 Matlab 程 序 如 下 。 

I = imread('pout.tif);”% 读 入 原 图 像 

figure; 9% 打 开 新 窗口 

[M,N] = size(D; % 计 算 图 像 大 小 

[counts, x] = imhist(1, 32); 9% 计 算 有 32 个 小 区 间 的 灰 度 直方 图 
counts = counts / M/N; % 计 算 归 一 化 灰 度 直方 图 各 区 间 的 值 
stem(x, counts); ”% 绘 制 归 一 化 直方 图 

上 述 程序 的 运行 的 结果 如 图 3.3 所 示 。 
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A 图 3.3 归 一 化 直方 图 





分 析 图 像 的 灰 度 下 方 图 往往 可 以 得 到 很 多 有 效 的 信息 。 例 如 ， 从 图 
3.4 所 示 的 一 系列 灰 度 直方 图 上 ， 可 以 很 直观 地 看 出 图 像 的 腕 上 度 和 对 比 
度 特征 。 实 际 上 ， 直 方 图 的 峰值 位 置 说 明了 图 像 总 体 上 的 亮 暗 : 如 有 果 图 
像 较 涡 ， 则 直方 图 的 峰值 出 现在 直方 图 的 较 右 部 分 ， 如 果 图 像 较 蜡 ， 则 
直方 图 的 峰值 出 现在 直方 图 的 较 左 部 分 ， 从 而 造成 蜡 部 细节 难以 分 辩 。 
如 末 直 方 图 中 只 有 中 间 某 一 小 段 非 等 值 ， 则 这 张 图 像 的 对 比 度 较 低 ; 肥 
过， 如 朱 百 方 图 的 非 零 值 分 布 很 宽 而 且 比 较 均 飞 ， 则 图 像 的 对 比 度 较 
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(a) 较 暗 的 图 像 
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(c) 对 比 度 较 小 的 图 像 
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(d) 对 比 度 较 大 的 图 像 





A 图 3.4 图 像 的 灰 度 直方 图 与 其 亮度 、 对 比 度 的 关系 


上 面 列举 的 情况 ， 均 可 以 通过 以 直方 图 为 依据 的 图 像 增强 方法 进行 
处 理 ， 这 些 方法 的 具体 介绍 详 见 3.7 节 。 


3.2 灰 度 的 线性 变换 


灰 度 线性 变换 是 最 和 常用 的 图 像 点 运算 之 一 ， 将 图 像 的 像素 值 通过 指 
定 的 线性 函数 进行 变换 ， 以 此 增强 或 减弱 图 像 的 灰 度 。 


3.2.1 理论 基础 
线性 灰 度 变换 函数 f(x) 是 一 个 一 维 线性 函数 。 
= RDh) = fDi+ 名 (3-2) 


式 中 : 参数 f\ 为 线性 函数 的 斜率 ;人 印 为 线性 函数 在 y 轴 的 截 距 ， DA 
表示 输入 图 像 的 灰 度 ，Dp 表 示 输 出 图 像 的 灰 度 。 

e 当 fA>1 时 ， 输 出 图 像 的 对 比 度 将 增 大 ; 当 fA<1 时 ， 输 出 图 像 的 对 
比 度 将 减 小 。 

e 当 fA=1 且 fpz0 时 ， 操 作 仪 使 所 有 的 像素 的 灰 度 值 上 移 或 下 移 ， 其 
效果 是 使 整个 图 像 更 瞳 或 更 亮 ， 如 fh <0， 暗 区 域 将 变 亮 ， 亮 区 域 将 变 
上 暗 。 这 种 线性 改变 亮度 的 变换 可 能 由 于 像素 亮度 达到 饱和 【小 于 0 或 超 
过 255) 从 而 丢失 一 部 分 细节 。 

e 特殊 情况 下 ， 当 f=1，fp=0 时 ， 输 出 图 像 与 输入 图 像 相 同 ， 妆 
fA= -1，fp=255 时 ， 输 出 图 像 的 灰 度 正好 反 转 。 灰 度 反 转 处 理 适用 于 增 
强 暗色 图 像 中 的 亮度 较 大 的 细节 部 分 ， 这 也 是 由 人 的 视觉 特性 决定 的 。 

图 3.5 给 出 了 一 些 对 应 于 上 述 情 况 的 变换 实例 ， 后 面 的 Matlab 实 现 








中 将 分 别 展示 应 用 这 些 变换 的 实际 效果 。 





Fra=2, Fb=-55, 增加 对 比 度 Fa=0.5, Fb=-55, 减少 对 比 度 
200 
100 
0 
0 100 200 
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A 图 3.5 线性 变换 示意 图 
3.2.2 Matlab 实 现 


使 用 Matlab 对 图 像 执 行 线性 变换 无 需 专 门 的 函数 ， 下 面 的 例 3.1 对 
Matlab 示 例 图 像 coins.jpg 进 行 了 不 同 参数 的 线性 变换 操作 。 

[ 例 3.1] 不 同 参数 的 线性 变换 效果 

本 例 中 对 Matlab 示 例 图 像 coins.png 进 行 了 如 图 3.5 中 所 示 的 增加 对 比 
度 、 减 小 对 比 度 、 线 性 平移 增加 亮度 和 反 相 显示 4 种 线性 变换 ， 给 出 了 
变换 效果 以 及 其 对 应 的 直方 图 变化 情况 。 

ex3_1.m 


I= imread('coins.png"); ”% 读 入 原 图 像 





I= im2double(D; % 转 换 数 据 类 型 为 double 


[M,N] = size(]); % 计 算 图 像 面积 
figure(1); % 打 开 新 窗口 
imshow(D; % 显 示 原 图 像 
title(' 原 图 像 ); 

figure(2); % 打 开 新 窗口 


[H,x] = imhist(l, 64); 。”% 计 算 64 个 小 区 间 的 灰 度 直方 图 
stem(x, (H/M/N), '."); ”% 显 示 原 图 像 的 直方 图 
title(' 原 图 像 ); 

9% 增加 对 比 度 

Fa = 2; Fb = -55; 

O= Fa.*I1+ Fb/255; 

figure(3); 

subplot(2,2, 1); 

imshow(O); 

title('Fa = 2 Fb = -55 增加 对 比 度 "); 

figure(4); 

subplot(2,2,1); 

[H,x] = imhist(O, 64); 

stem(x, (H/M/N), '."); 

title(Fa = 2 Fb = -55 增加 对 比 度 "); 

% 减 小 对 比 度 

Fa = 0.5; Fb = -55; 

O= Fa.*I1+ Fb/255; 

figure(3); 

subplot(2,2,2); 


imshow(O); 


title(Fa = 0.5 Fb = -55 减 小 对 比 度 "); 
figure(4); 

subplot(2,2,2); 

[H,x] = imhist(O, 64); 

stem(x, (H/M/N), '."); 

title(Fa = 0.5 Fb = -55 减 小 对 比 度 "); 
% 线性 增加 亮度 

Fa= 1; Fb = 55; 

O= Fa.*I1+ Fb/255; 

figure(3); 

subplot(2,2,3); 

imshow(O); 

title(Fa = 1 Fb = 55 线性 平移 增加 亮度 ); 
figure(4); 

subplot(2,2,3); 

[H,x] = imhist(O, 64); 

stem(x, (H/M/N), '."); 

title(Fa = 1 Fb = 55 线性 平移 增加 亮度 ); 
9% 反 相 显示 

Fa = -1; Fb = 255:; 

O= Fa.*1+ Fb/255; 


figure(3); 

subplot(2,2,4); 

imshow(O); 

title(Fa = -1 Fb = 255 反 相 显示 1); 
figure(4); 


subplot(2,2,4); 


[H,x] = imhist(O, 64); 

stem(x, (H/M/N), '."); 

title(Fa = -1 Fb = 255 反 相 显示 '); 

上 述 程 序 存放 在 金 羽 图 书 论坛 (http://bbs.book95.com) 的 “金鸡 图 
书 与 答疑 ”板块 与 本 书 同 名 的 主题 帖子 附件 中 “Chapter3/Code” 目 录 下 的 
ex3_1.m 文 件 中 ， 其 运行 结果 如 图 3.6 所 示 。 


Fa=2 Fb=-55 增加 对 比 度 Fa=0.5 Fb=-55 减少 对 比 度 





Fa= 1 Fb = 55 线性 平移 增加 亮度 Fa= -1 Fb=255 反 相 显示 





(a) 示例 图 像 coins.png 
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(c) 原 图 像 的 灰 度 直 方 图 


Fa=2 Fb=-55 增加 对 比 度 Fa=0.5 Fb=-55 减少 对 比 度 
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Fa=1 Fb=55 线性 平移 增加 亮度 Fa=-1 Fb=255 反 相 显示 
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(d) 线性 变换 对 灰 度 直方 图 的 影响 


A 图 3.6 线性 变换 实例 说 明 








从 图 3.5、 图 3.6 可 以 看 出 : 改变 图 像 的 对 比 度 是 对 直方 图 的 缩放 
与 平移 ， 改 变 图 像 的 腕 度 则 只 是 平移 下 方 图 在 横 轴 上 的 位 置 ， 而 反 相 则 
征 将 直方 图 水 平 镜像 。 

单纯 的 线性 灰 度 变换 可 以 在 一 定 程度 上 解决 视觉 上 的 图 像 整 体 对 比 
度 问题 ， 但 是 对 图 像 细节 部 分 的 增强 则 较为 有 限 ， 结 合 后 面 将 要 介绍 的 
非 线 性 变换 技术 可 以 解决 这 一 问题 。 





3.3 灰 度 对 数 变 换 
本 节 介 绍 一 种 灰 度 的 非 线性 变换 一 一 对 数 变 换 ， 并 介绍 它 在 传 立 叶 


频谱 显示 中 的 应 用 。 
3.3.1 理论 基础 
对 数 变 换 的 一 般 表 达 式 如 下 。 
t = C log(l+s) (3-3) 


其 中 c 为 尺度 比例 常数 ，s 为 源 灰 度 值 ，t 为 变换 后 的 目标 次 度 值 。 
在 如 图 3.7 所 示 的 对 数 曲 线 上 ， 函 数 自 变量 低 值 时 ， 曲 线 的 斜率 很 
高 ; 自 变 量 高 值 时 ， 曲 线 斜 率 变 小 。 

















y=log(x+1.5) 








A 图 3.7 对 数 变 换 示意 图 


由 对 数 函数 曲线 可 知 ， 这 种 变换 可 以 增强 一 幅 图 像 中 较 上 暗部 分 的 细 
节 ， 从 而 可 用 来 扩展 被 压缩 的 高 值 图 像 中 的 较 暗 像素 ， 因 此 对 数 变 换 科 
广泛 地 应 用 于 频谱 图 像 的 显示 中 。 一 个 典型 的 应 用 是 傅立叶 频谱 (参见 
第 6 章 ) ， 其 动态 范围 可 能 宽 达 0 一 108 。 直 接 显示 频谱 时 ， 图 像 显示 
设备 的 动态 范围 往往 不 能 满足 要 求 ， 从 而 丢失 了 大 量 的 暗部 细节 。 而 在 





使 用 对 数 变换 之 后 ， 图 像 的 动态 范围 被 合理 地 非 线 性 压缩 ， 从 而 可 以 清 
晰 地 显示 。 本 节 的 Matlab 实 现 中 就 提供 了 一 个 这 样 的 示例 。 


3.3.2 Matlab 实 现 


对 数 变换 不 需要 专门 的 图 像 处 理 函 数 ， 可 以 使 用 如 下 数学 函数 实现 
对 图 像 I 的 对 数 变换 。 

工 =log( + 1); 

注意 

log 函 数 会 对 输入 图 像 官 阵 I 中 的 每 个 元 素 进 行 操 作 ， 但 是 却 仅 能 处 
理 double 类 型 的 官 阵 。 从 图 像 文件 中 得 到 的 图 像 矩 阵 则 大 多 数 是 uint8 类 
型 的 ， 因 此 需要 首先 使 用 im2double 函 数 来 执行 数据 类 型 的 转换 。 

下 面 的 程序 比较 了 对 傅立叶 频谱 图 像 进行 对 数 变 换 前 后 的 效果 《不 
必 关 注 代 码 中 生成 傅立叶 频谱 的 部 分 〉。 

I=imread('coins.png");”% 读 取 图 像 

F = fft2(im2double(D); % 计 算 频 谱 

F = fftshift(F); 

F = abs(F); 

T$space(@= log(F + 1);”% 对 数 变 换 

subplot(1,2,1); 

imshow(F, [}]); 

title(' 未 经 变换 的 频谱 "); 

subplot(1,2,2); 

imshow(T, []); 

title(' 对 数 变 换 后 ”);，% 显 示 原 图 和 变换 结 

上 述 程 序 的 运行 结果 如 图 3.8 所 示 。 

















(a) 未 经 变换 的 频谱 (b) 经 过 对 数 变换 的 频谱 


A 图 3.8 对 数 变 换 效果 示意 图 


由 图 3.8 (a) 中 未 经 变换 的 频谱 可 见 ， 图 像 中 心 绝对 高 灰 度 值 的 存 
在 压缩 了 低 灰 度 部 分 的 动态 范围 ， 从 而 无 法 在 显示 时 表现 出 细节 ， 而 经 
过 对 数 灰 度 处 理 的 图 像 ， 其 低 灰 度 区 域 对 比 度 将 会 增加 ， 旱 部 细节 被 增 
强 。 


3.4 伽 玛 弯 





伽 玛 变 换 又 称 指 数 变 换 或 景 次 变换 ， 是 另 一 种 利用 的 灰 度 非 线性 变 
换 。 


3.4.1 理论 基础 
伽 玛 变换 的 一 般 表 达 式 如 下 。 


y=(xtesp)” (3-4) 





式 中 : x 与 y 的 取 值 范围 均 为 [0，1]; esp 为 补偿 系数 ; y 则 为 伽 玛 系 
数 。 
与 对 数 变换 不 同 ， 伽 玛 变 换 可 以 根据 y 的 不 同 取 值 选 择 性 地 增强 低 











灰 度 区 域 的 对 比 度 或 是 高 灰 度 区 域 的 对 比 度 。 

Y 是 图 像 灰 度 校正 中 非常 重要 的 一 个 参数 ， 其 取 值 决定 了 输入 图 像 
和 输出 图 像 之 间 的 灰 度 映射 方式 ， 即 决定 了 是 增强 低 灰 度 《〈 阴 影 区 域 ) 
还 是 增强 高 灰 度 《高 亮 区 域 ) 。 

eyY>1 时 ， 图 像 的 高 灰 度 区 域 对 比 度 得 到 增强 。 

eyY<1 时 ， 图 像 的 低 灰 度 区 域 对 比 度 得 到 增强 。 

e y=1 时 ， 这 一 灰 度 变换 是 线性 的 ， 即 不 改变 原 图 像 。 

件 玛 变换 的 映射 关系 如 图 3.9 所 示 。 在 进行 变换 时 ， 我 们 通常 需要 
将 0 一 255 的 灰 度 动态 范围 首先 变换 到 0 一 1 的 动态 范围 ， 执 行 伽 玛 变换 后 
再 恢复 原 动 态 范围 。 




















伽 玛 变换 示意 图 


油 寺 压 莹 


I 
A 





A 图 3.9 0 一 1 范围 上 的 伽 玛 变换 示意 图 


3.4.2 Matlab 实 现 





Matlab 中 为 我 们 提供 了 实现 灰 度 变换 的 基本 工具 imadjust， 它 有 着 
非常 广泛 的 用 途 ， 其 调用 的 一 般 语 法 如 下 。 

J = imadjust(l, [low_in high_in], [low_out, high_out], gamma); 

该 函数 将 输入 图 像 I 中 从 low_in 至 high_in 之 间 的 值 映射 到 输出 图 像 J 
的 low_out 和 high_out 之 间 的 值 ，low_in 以 下 和 high_in 以 上 的 值 则 被 裁减 
掉 。 





参数 说 明 
e [low_in high_in] 和 [low_out, high_. out] 确 定 源 灰 度 范围 到 RN 度 
范围 的 映射 。 在 给 定 [low_in high_in] 和 [low_out, high_out] 时 ， 需 要 按照 


double 类 型 给 定 ， 即 取 值 范围 在 0 一 1 之 间 。 

使 [low_in high_in] 和 [low_out, high_out] 为 空 〈[]) 相当 于 默认 值 [0 
1]。 知 high_out 小 于 low_out， 则 输出 图 像 J 的 亮度 将 会 反 转 。 

e 参数 gamma 指 定 了 变换 曲线 的 形状 类 似 于 图 3.9 中 的 形状 〉 ， 其 
默认 值 为 1， 表 示 线 性 映射 。 若 gamma<1， 则 映射 被 加 权 至 更 高 的 输出 
值 ; 各 gamma>1， 则 映射 被 加 权 至 更 低 的 输出 值 。 

提示 

当 gamma 取 1 时 ， 通 过 设 定 合适 的 [low_in high_in] 和 [low_onut 
high_out] 的 取 值 ， aa 函数 可 以 实现 3.2 节 中 的 灰 度 线性 变换 ， 而 
当 [low_in high_in] 和 [low_out high_out] 的 取 值 均 为 [0, 1 时 ， 以 不 同 的 
gamma 调 用 imadjust 函 数 则 可 以 实现 图 3.9 中 所 示 的 各 种 伽 马 变换 。 

e [为 输入 图 像 ， 可 以 是 uint8、uint16 或 者 double 类 型 。 

返回 值 

e J 为 经 过 处 理 的 图 像 ， 与 1 具有 同样 的 类 型 。 

ea 数 用 于 Gamma 变 换 的 调用 语法 如 下 。 

= imadjust(L,[ ],[ J],gamma) 





[ 例 3.2] 当 gamma 分 别 取 不 同 值 时 的 伽 马 变 换 效果 。 

%ex3_ 2.m 

I = imread(” pout.tif ); % 读 入 原 图 像 

% Gamma 取 0.75 

subplot(1,3, 1); 

imshow(imadjust(], [ ], [ ], 0.75)); 

title(Gamma 0.75'); 

% Gamma 取 1 

subplot(1,3,2); 

imshow(imadjust(], [ J, [ J, 1)); 

title(‘Gamma 1"); 

% Gamma 取 1.5 

subplot(1,3,3); 

imshow(imadjust(L [ ], [ ], 1.5)); 

title(Gamma 1.5"); 

上 述 程 序 的 运行 结果 如 图 3.10 所 示 ， 可 以 看 出 不 同 伽 玛 因子 给 图 
像 的 整体 明暗 程度 市 来 的 变化 ， 以 及 对 图 像 暗部 和 亮 部 细节 清晰 度 的 影 
啊 。 当 伽 玛 因子 取 1 的 时 候 ， 图 像 没 有 任何 改变 。 

下 面 的 程序 生成 了 图 3.11 中 3 幅 图 像 的 灰 度 直方 图 。 

% Gamma 取 0.75 

subplot(1,3,1); 

imhist(imadjust(L [ ], [ ], 0.75)); 

title(Gamma 0.75'); 

% Gamma 取 1 

subplot(1,3,2); 

imhist(imadjust(], [ ], [ ], 1)); 

title(‘Gamma 1"); 














% Gamma 取 1.5 
subplot(1,3,3); 
imhist(imadjust(], [ ], [ ], 1.5)); 
title(Gamma 1.5"); 


Gamma 0.75 Gamma 1 Gamma 1.5 





4 图 3.10” 伽 玛 变 换 效果 
Gamma 0.75 Gamma 1 Gamma 1.5 
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A 图 3.11 伽 玛 变 换 对 灰 度 直方 图 的 影响 


注意 图 3.11 中 直方 图 非 零 区 间 位 置 的 变化 ， 以 及 这 些 变 化 给 图 像 
带 来 的 影响 。 由 于 伽 玛 变换 并 不 是 线性 变换 ， 所 以 它 不 仅 可 以 改变 图 像 
的 对 比 度 ， 还 能 够 增强 细节 ， 从 而 带 来 整体 图 像 效 果 的 增强 和 改善 。 





3.5 灰 度 阔 值 变换 





灰 度 浆 值 变换 可 以 将 一 幅 灰 度 图 像 转 换 成 黑白 的 二 值 图 像 。 用 户 指 
定 一 个 起 到 分 界线 作用 的 灰 度 值 ， 如 果 图 像 中 某 像素 的 灰 度 值 小 于 该 灰 
度 值 ， 则 将 该 像素 的 灰 度 值 设置 为 0， 和 否则 设置 为 255。 这 个 起 到 分 界线 
作用 的 灰 度 值 称 为 闹 值 ， 灰 度 的 阐 值 变换 也 第 被 称 为 浆 值 化 或 二 值 化 。 





3.5.1 理论 基础 
灰 度 病 值 变换 的 函数 表达 式 如 下 。 


_ |0 起 过 多 


(3-5) 
1255 x>7 


f(x) 


式 中 : I 为 指定 的 国 值 。 
图 3.12 给 出 了 灰 度 阐 值 变换 的 示意 图 。 


灰 度 闪 值 变换 
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4 图 3.12 灰 度 闷 值 变 换 示意 图 


灰 度 阔 值 变换 的 用 途 和 可 扩展 性 都 非常 广泛 。 通 过 将 一 幅 灰 度 图 像 
续 为 二 值 图 像 ， 可 以 将 图 像 内 容 直接 划分 为 我 们 关心 的 和 不 关心 的 两 个 
部 分 ， 从 而 在 复杂 背景 中 直接 提取 出 感 兴趣 的 目标 。 因 此 它 是 图 像 分 害 
的 重要 手段 之 一 ， 这 一 点 在 第 11 章 中 还 将 进一步 阐述 。 

















3.5.2 Matlab 实 现 


Matlab 中 和 浆 值 变换 有 关 的 函数 主要 有 两 个 
graythresh， 下 面 分 别 介 绍 。 

1. 函数 im2bw 可 用 于 实现 闵 值 变换 ， 调 用 语法 如 下 。 

BW = im2bw(L level) 

参数 说 明 


im2bw 和 








e 参数 I 为 需要 二 值 化 的 输入 图 像 ; 

e 参数 level 给 出 了 有 具体 的 变换 国 值 ， 它 是 一 个 0 一 1 之 间 的 双 精 度 序 
点 数 。 例 如 输入 图 像 为 灰 度 范围 在 0 一 255 之 间 的 uint8 图 像 ， 如 采 
level=0.5 则 对 应 于 分 割 国 值 128。 

返回 值 

eBW 为 二 值 化 后 的 图 像 。 

2. 函数 graythresh 可 以 自 适 应 地 确定 变换 所 用 的 “最 优 ? 国 值 ， 调 
用 形式 如 下 。 

thresh = graythresh(D) 


参数 说 明 
e 参数 I 为 需要 计算 闵 值 的 输入 图 像 。 
返回 值 


e thresh 是 计算 得 到 的 最 优化 立 值 。 

灰 度 闵 值 level 既 可 以 由 经 验 确 定 ， 也 可 以 使 用 graythresh 函数 来 自 
适应 地 确定 。 下 面 的 程序 分 别 展 示 了 如 何 利用 graythresh 函 数 获得 的 浆 
值 和 自行 设 定 的 阀 值 进行 装 值 变换 。 

>>I= imread(rice.png); 9% 使 用 Matlab 自 带 的 rice.png 图 像 

>> thresh = graythresh(D % 自 适 应 确定 浆 值 

thresh = 

0.5137 

>> bw1 = im2bwl(], thresh); % 二 值 化 

2 

>> bw2 = im2bw(L 130/255); 9% 以 130 为 闵 值 实现 二 值 化 ， 注 意 要 
将 此 国 值 转换 至 [0，1 区 间 

>> Subplot(1,3,1);imshow(Di;title(' 原 图 像 ); 

>> Subplot(1,3,2);imshow(bw1l);title(' 自 动 选 择 闵 值 ); 

>> subplot(1,3,3);imshow(bw2);title(' 立 值 130"); 











(b) 自动 阔 值 (c) 阅 值 130 手工 设置 


A 图 3.13 灰 度 阔 值 变换 效果 
由 3.13 (b) 和 (c) 可 见 ， 单 纯 的 灰 度 浆 值 化 无 法 很 好 地 处 理 灰 度 
变化 较为 复杂 的 图 像 ， 常 常 给 物体 的 边缘 带 来 误差 ， 或 者 给 整个 画面 带 
来 噪点 。 这 要 通过 其 他 的 图 像 处 理 手段 予以 弥补 ， 我 们 将 在 10.4 节 介绍 
相关 的 内 容 。 


3.6 分 段 线性 变换 


分 段 线 性 变换 有 很 多 种 ， 包 括 灰 度 拉 伸 、 灰 度 窗口 变换 等 ， 本 市 仅 
讲述 最 为 钊 用 的 灰 度 拉 伸 。 





3.6.1 理论 基础 


利用 分 段 线 性 变换 函数 来 增强 图 像 对 比 度 的 方法 实际 是 增强 原 图 各 
部 分 的 反差 ， 即 增强 输入 图 像 中 感 兴趣 的 灰 度 区 域 ， 相 对 抑制 那些 不 感 
兴趣 的 灰 度 区 域 。 分 段 线 性 函数 的 主要 优势 在 于 它 的 形式 可 任意 合成 ， 
而 其 缺点 是 需要 更 多 的 用 户 输 入 。 

分 段 线性 变换 的 函数 形式 如 下 。 


Vi 

X > | 

本 y2— YI ; E 
/1(7) = (x-X)+y Xl XS NX (3-6) 
X2 — XI 
255—y; 
—(X—X2)+ y2 a 

255— x 








式 3-6 中 最 重要 的 参数 是 [xxz] 和 [yly?]。 根 据 算 法 函数 摘 述 发 现 ， 
其 中 x1 和 x 是 给 出 需要 转换 的 灰 度 范围 ，y1 和 y, 参 数 决 定 线 性 变换 的 斜 

当 x1、X2、y1、 了 yw 分 别 取 不 同 的 值 的 组 合 时 ， 可 得 到 不 同 的 变换 效 
果 。 

如 果 x1=y1，X2=y2， 则 f(x) 为 1 条 斜率 为 1 的 直线 ， 增 强 图 像 将 和 原 图 

像 相 同 。 

e 如 果 xi=xX?，yl1=0，yo2=255， 则 增强 图 像 只 剩 下 2 个 灰 度 等 级 ， 
分 段 线性 变换 起 到 了 阔 值 化 的 效果 ， 此 时 的 对 比 度 最 大 ， 但 是 细节 丢失 
最 多 。 

e Xx1、X，、y1、y2 取 一 般 值 时 的 分 段 线 性 变换 函数 图 形 如 图 3.14 所 


dl 


灰 度 分 段 线性 变换 


于 对 压 霉 





A 图 3.14 灰 度 的 分 段 线性 变换 


分 段 的 灰 度 拉 伸 可 以 更 加 灵活 地 控制 输出 灰 度 直方 图 的 分 布 ， 可 以 
有 选择 地 拉 伸 系 段 灰 度 区 间 以 改善 输出 图 像 。 如 果 一 幅 图 像 灰 度 集中 在 
较 暗 的 区 域 而 导致 图 像 仍 蜡 ， 我 们 可 以 用 灰 度 拉 伸 功能 来 扩展 《斜率 
>1) 物体 灰 度 区 间 以 改善 图 像 ， 同 样 ， 如 果 图 像 灰 度 集中 在 较 腕 的 区 域 
而 导致 图 像 俩 完 ， 也 可 以 用 灰 度 拉 伸 功能 来 压缩 〈 和 斜率 <1) 物体 灰 度 区 
间 以 改善 图 像 质量 。 

灰 度 拉 伸 是 通过 控制 输出 图 像 中 灰 度 级 的 展开 程度 来 达到 控制 对 比 
度 的 效果 的 。 一 般 情况 下 都 限制 x1<x2，y1<y2， 从 而 保证 函数 是 单调 递 
增 的 ， 以 避免 造成 处 理 过 的 图 像 中 灰 度 级 发 生 磊 倒 。 

















3.6.2 Matlab 实 现 





我 们 编号 了 imgrayscaling 函 数 来 实现 灰 度 线性 变换 ， 它 位 于 金 羽 图 
书 论坛 (http:/bbs.book95.com) 的 “金鸡 图 书 与 答疑 ?板块 与 本 书 同名 的 
主题 帖子 附件 中 “chapter3/code/ 路 径 下 的 imgrayscaling.m 文 件 中 。 

提示 

作为 本 书 的 第 1 个 由 我 们 目 己 编写 的 Matlab 图 像 处 理 函 数 ， 
imgrayscaling 具 有 很 好 的 兼容 性 ， 它 可 以 处 理 灰 度 、 彩 色 、 索 引 等 不 同 
类 型 ， 以 及 double、uint8 等 不 同 存 储 方式 的 图 像 。 出 于 篇 幅 考 虑 ， 本 书 
后 面 的 所 有 Matlab 函 数 都 只 将 注意 力 集中 在 算法 本 身 ， 不 再 考虑 对 各 种 
类 型 图 像 的 兼容 性 问题 。 如 果 读 者 需要 处 理 多 种 类 型 的 图 像 ， 可 以 参考 
imgrayscaling 函 数 的 编写 方法 和 技巧 。 

1. 输入 的 处 理 

为 了 可 以 使 用 可 变 个 数 的 参数 ，imgrayscaling 函 数 中 使 用 了 细胞 数 
组 (参见 2.1.6 小 市 ) ， 将 函数 的 输入 参数 整体 看 做 一 个 细胞 数组 。 为 此 
需要 编写 一 个 parse_inputs 函 数 来 解析 该 细胞 数组 的 内 容 ， 该 函数 的 返回 
值 为 iImgrayscaling 中 所 有 可 能 由 用 户 初始 化 的 参数 值 。 

parse_inputs 函 数 的 完整 实现 如 下 。 其 中 对 未 知 个 数 的 输入 使 用 了 参 
数 varargin 来 表示 。 

function [A, map, x1, x2, y1, y2] = parse_inputs(varargin) 

% 这 就 是 用 来 分 析 输 入 参数 个 数 和 有 效 性 的 函数 parse_inputs 

%A 输入 图 像 ，RGB 图 (3D) ， 灰 度 图 (2D) ， 或 者 索引 图 

(X) 

%map 索引 图 调 色 板 〈:,3) 

% [x1,x2] 参数 组 1， 曲 线 中 两 个 转折 点 的 横 坐 标 

9% [y1,y2] 参数 组 2， 曲 线 中 两 个 转折 点 的 纵 坐 标 

% 首先 建立 一 个 空 的 map 变 量 ， 以 免 后 面 调用 isempty(map) 时 出 错 

map = [J; 

% IPTCHECKNARGIN(LOW,HIGH,NUM_INPUTS,FUNC_ NAME) 





检查 输入 参数 的 个 数 是 否 

9% 符合 要 求 ， 即 NUM_INPUTS 中 包 合 的 输入 变量 个 数 是 否 在 LOW 
和 HIGH 所 指定 的 范 

% 内 。 如 果 不 在 范围 内 ， 则 此 函数 给 出 一 个 格式 化 的 错误 信息 。 

iptchecknargin(3,4,nargin, mfilename); 

% 
IPTCHECKINPUT(A,CLASSES,ATTRIBUTES,FUNC_ NAME,VAR NAM 
ARG_POS) 检查 给 定 

% 矩阵 A 中 的 元 和 素 是 售 属 于 给 定 的 类 型 列表 。 如 果 存 在 元 又 不 属于 
给 定 的 类 型 ， 则 给 出 

% 一 个 格式 化 的 错误 信息 。 

iptcheckinput(varargin{ 1},... 

{'uint8','uint16",'int16','double'}, ... 
{'real', nonsparse'},mfilename,'l, X or RGB,,1); 

% 根据 参数 个 数 的 不 同 ， 分 别 确定 相应 的 返回 值 


Switch nargin 











case3% ”可 能 是 imgrayscaling(],[x1,x2],[y1,y2]) 或 
imgrayscaling(RGB,[x1,x2], 

[y1,y21]) 

A = varargin{1}; 

Xx1 = varargin{2}(1); 

X2 = varargin{2}(2); 

yl = varargin{3}(1); 

y2 = varargin{3}(2); 

case 4 

A = varargin{1};% imgrayscaling(X, map, [x1,x2], [y1,y2]) 


map = varargin{2}; 


Xx1 = varargin{2}(1); 
X2 = varargin{2}(2); 
yl = varargin{3}(1); 
y2 = varargin{3}(2); 


end 
% 检测 输入 参数 的 有 效 性 
% 检查 RGB 数 组 


if (ndims(A)==3) && (Size(A,3) 一 =3) 
msg = sprintf('%s: 真 彩色 图 像 应 当 使 用 一 个 M-N-3 维 度 的 数组 ，.… 
upper(mfilename)); 
eid = 
sprintf(Tmages:%s:trueColorRgblImage Must BeMbyNby3',mfilename); 
error(eid,'%s',msg); 
end 
if ~isempty(map) 
% 检查 调 色 板 
if (size(map,2) 一 = 3) || ndims(map)>2 
msgl = sprintf('%s: 输入 的 调 色 板 应 当 是 一 个 矩阵 ' .… 
upper(mfilename)); 
msg2 = ' 并 拥有 三 列 ' 
eid = 
sprintf(Tmages:%s:inColormapMustBe2Dwith3Cols',mfilename); 
error(eid,'%s %s',msgl1,msg2); 
elseif (min(map(:))<0) | (maxQmap(:))>1) 
msg1 = sprintf('%s: 调 色 板 中 各 个 分 量 的 强度 ',upper(mfilename)); 
msg2 = ' 应 当 在 0 和 1 之 间 '; 


eid = Sprintf(Images:9%0s:colormapValsMustBe0to1',mfilename); 


error(eid,'%s %s',msgl1,msg2); 
end 
end 
% 将 int16 类 型 的 矩阵 转换 成 uint16 类 型 
if isa(A,'int16") 
A = intl6touint16(A); 
end 
2. 输出 的 处 理 
可 以 直接 通过 nargout 这 个 参数 判断 用 于 接收 结果 的 参数 个 数 。 参 数 
nargout 是 由 Matlab 自 动 赋值 的 ， 如 果 调 用 imgrayscaling 时 没有 使 用 变量 
接收 返回 值 ， 则 函数 直接 将 结果 通过 imshow 命 令 显 示 出 来 。 
% 输出 
if nargout==0 % 显示 结果 
imshow(out); 
return; 
end 
3. 函数 实现 
imgrayscaling 函 数 的 完整 实现 如 下 。 
function out = imgrayscaling(varargin) 
% IMGRAYSCALING 执行 灰 度 拉 伸 功能 
% 语法 : 
% out = imgrayscaling(l, [x1,x2], [y1,y2]); 
% out = imgrayscaling(X, map, [x1,x2], [y1,y2]); 
% out = imgrayscaling(RGB, [x1,x2], [y1,y2]); 
% ”这 个 函数 提供 灰 度 拉 伸 功能 ， 输 入 图 像 应 当 是 灰 度 图 像 ， 但 如 
果 提 供 的 不 是 灰 度 
9% ”图像 的 话 ， 函 数 会 自动 将 图 像 转化 为 灰 度 形式 。x1，x2，y1， 


y2 应 当 使 用 双 精 度 
9% 类 型 存储 ， 图 像 窍 阵 可 以 使 用 任何 Matlab 文 持 的 类 型 存储 。 
[A, map, x1 , x2, yl, y2] = parse_inputs(varargin{:}); 
% 计算 输入 图 像 A 中 数据 类 型 对 应 的 取 值 范围 


range = getrangefromclass(A); 





range = range(2); 
% 如 果 输 入 图 像 不 是 灰 度 图 ， 则 需要 执行 转换 
if ndims(A)==3,% A 和 矩阵 为 3 维 ，RGB 图 像 
A =Tgb2gray(A); 
elseif ~isempty(map),9%6 MAP 变 量 为 非 空 ， 索 引 图 像 
A=ind2gray(A,map); 
end % 对 灰 度 图 像 则 不 需要 转换 
% 读 取 原始 图 像 的 大 小 并 初始 化 输出 图 像 
[M,N] = size(A); 
I= im2double(A); 将 输入 图 像 转换 为 双 精 度 类 型 
out = Zeros(M,N ); 
9% 主体 部 分 ， 双 级 藤 套 循环 和 选择 结构 
for i=1:M 
for j=1:N 
if I(i,j)<x1 
out(i,j) = yl1 * I(i,j)/ x1; 
elseif I1(i,j)>x2 





out(i,j) = (1(i,j)-x2)*(range-y2)/(range-x2) + y2; 
else 

out(i,j) = (1(i,j)-x1)*(y2-y1)/(X2-x1) + yl; 
end 


end 


end 
% 将 输出 图 像 的 格式 转化 为 与 输入 图 像 相 同 
if isa(A, ‘uint8') % uint8 
out = im2uint8(out); 
elseif isa(A, 'uint16') 
out = im2uint16(out); 
% 其 他 情况 ， 输 出 双 精 度 类 型 的 图 像 
end 
% 输出 : 
if nargout==0 % 如 有 果 没 有 提供 参数 接受 返回 值 
imshow(out); 
return; 
end 
下 面 给 出 使 用 imgrayscaling 函 数 实现 灰 度 线性 变换 的 调用 示例 ， 实 
现 中 分 别 使 用 了 2 组 不 同 的 变换 参数 。 
>> 工 = imread('coins.png"); % 读 入 原 图 像 
>> J1 = imgrayscaling(I, [0.3 0.7], [0.15 0.85]); 
>> figure, imshow(J1, []);% 得 到 图 3.15 左 图 
>> J2 = imgrayscaling(I, [0.15 0.85], [0.3 0.7]); 
>> figure, imshow(J2, []); % 得 到 图 3.15 右 图 
上 述 程序 的 运行 结果 如 图 3.15 和 图 3.16 所 示 。 





[x1 x2]=[0.3 0.7],[y1 y2]=[0.15 0.85] [x1 x2]=[0.15 0.85],[y1 y2]=[0.3 0.7] 





A 图 3.15 对 图 3.7 (a) 的 分 段 灰 度 变 换 的 效果 


从 图 3.15 和 图 3.16 可 以 看 到 第 一 组 参数 让 图 像 灰 度 直方 图 上 的 非 零 
区 域 扩 展 ， 而 第 二 组 参数 让 图 像 的 灰 度 直方 图 非 零 区 域 压缩 ， 这 给 目标 
图 像 市 来 了 截然 不 同 的 效果 。 第 一 幅 图 像 中 的 细节 更 加 清晰 ， 而 第 二 幅 
图 像 更 加 柔和 。 


[xl x2]=[0.3 0.7],[y1 y2]=[0.15 0.85] [xl x2]=[0.15 0.85],[y1 72]=[0.3 0.7] 
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A 图 3.16 分 段 灰 度 变换 对 直方 图 的 影响 


3.7 直方 图 均衡 化 
本 节 将 介绍 一 种 实用 性 极 高 的 直方 图 修正 技术 一 一 直方 图 均衡 化 。 
3.7.1 理论 基础 


直方 图 均衡 化 又 称 为 灰 度 均 衡 化 ， 是 指 通过 某 种 灰 度 映射 使 输入 图 
像 转换 为 在 每 一 灰 度 级 上 都 有 近似 相同 的 像素 点 数 的 输出 图 像 〈 输 出 的 
直方 图 是 均匀 的 ) 。 在 经 过 均衡 化 处 理 后 的 图 像 中 ， 像 素 将 占有 尽 可 能 
多 的 灰 度 级 并 且 分 布 均匀 。 因 此 ， 这 样 的 图 像 将 具有 较 高 的 对 比 度 和 较 
大 的 动态 范围 。 

为 了 便于 分 析 ， 我 们 首先 考虑 灰 度 范围 为 0 一 1 且 连 续 的 情况 。 此 时 
图 像 的 归 一 化 直方 图 即 为 概率 密度 函数 (PDF) 。 





p(x),0< x<]1 (3-7) 


由 概率 密度 函数 的 性 质 ， 有 


设 转换 前 图 像 的 概率 密度 函数 为 p.(r)， 转 换 后 图 像 的 概率 密度 函数 
为 ps(S)， 转 换 函 数 《〈 灰 度 上 映射 关系 ) 为 s=fm。 由 概率 论 知 识 可 得 
dr 
= (3-9) 


这 样 ， 如 果 想 使 转换 后 图 像 的 概率 密度 函数 ps.(S)=1，0<S<1〈 即 直 


方 图 为 均匀 的 ) ， 则 必须 满足 
ee (3-10) 
ds 
等 式 两 边 对 fr 积分， 可 得 
5 三 PS | 产 (oOdn (3-11) 
0 


式 3-11 称 为 网 像 的 累积 分 布 函 数 CCDEF) 。 

式 3-11 是 在 灰 度 取 值 在 [0, 1] 范 围 内 的 情况 下 推导 出 来 的 ， 对 于 [0， 
255] 的 情况 ， 只 要 乘 以 最 大 灰 度 值 D (对 于 灰 度 图 就 是 255) 即 可 。 
此 时 灰 度 均衡 的 转换 公式 为 


Di 


Ds 7 f(Da) a DO | PD (udxu (3-12) 
0 











式 中 : DB 为 转换 后 的 灰 度 值 ，DA 为 转换 前 的 灰 度 值 。 
而 对 于 离散 灰 度 级 ， 相 应 的 转换 公式 应 为 








D - Di 
Da= (D0=— 2 (3-13) 
式 中 : 瑟 为 第 i 级 灰 度 的 像素 个 数 ，Ao 为 图 像 的 面积 ， 即 像素 总 


数 。 

式 3-15 中 的 变换 函数 f 古 一 个 单调 增加 的 函数 ， 这 保证 了 在 输出 图 
像 中 不 会 出 现 灰 度 反 转 的 情况 《变换 后 相对 灰 度 不 变 ) ， 从 而 能 够 防止 
在 变换 中 改变 图 像 的 实质 ， 以 至 于 影响 对 图 像 的 识别 和 判读 。 

这 里 还 需要 说 明 一 点 ， 对 于 式 3-13 的 离散 变换 ， 通 常 无 法 再 像 连 





续 变 换 时 那样 可 以 得 到 严格 的 均匀 概率 密度 函数 (ps(S)=1，0<5<1) 。 
但 无 论 如 何 ， 式 3-13 的 应 用 有 展开 输入 图 像 直 方 图 的 一 般 趋 势 ， 可 使 
得 均衡 化 过 的 图 像 灰 度 级 具有 更 大 的 范围 ， 从 而 得 到 近似 均匀 的 直方 
图 。 


3.7.2 Matlab 实 现 


Matlab 图 像 处 理工 具 箱 提供 了 用 于 直方 图 均衡 化 的 函数 histeq， 调 
用 语法 为 

[J, T] = histeq(D) 

参数 说 明 

e I 是 原始 图 像 。 

返回 值 

e J 是 经 过 和 直方 图 均衡 化 的 输出 图 像 。 

e 工 是 变换 矩阵 。 

图 像 易 受 光 照 、 视 角 、 方 位 、 噪 声 等 的 影响 。 在 这 些 因素 的 作用 
下 ， 同 一 类 图 像 的 不 同 变形 体 之 间 的 差距 有 时 大 于 该 类 图 像 与 另 一 类 图 
像 之 间 的 差距 ， 这 就 给 图 像 识 别 / 分 类 融 来 了 困扰 。 图 像 归 一 化 就 是 将 
图 像 转换 成 唯一 的 标准 形式 以 抵抗 各 种 变换 ， 从 而 可 消除 同类 图 像 不 同 
变形 体 之 间 的 外 观 差异 。 

当 图 像 归 一 化 用 于 消除 灰 度 因素 《光照 等 ) 造成 的 图 像 外 观 变化 
时 ， 称 为 〈 图 像 ) 灰 度 归 一 化 。 例 3.3 为 我 们 展示 了 如 何 利用 直方 图 均 
衡 化 来 实现 图 像 的 灰 度 归 一 化 。 

[ 例 3.3] 利 用 直方 图 均衡 化 技术 实现 图 像 的 灰 度 归 一 化 。 

下 面 的 程序 在 读 入 了 图 像 pout.tif 后 ， 分 别 对 其 进行 了 增加 对 比 度 、 
减 小 对 比 度 、 线 性 增加 亮度 和 线性 减 小 腕 度 的 处 理 ， 得 到 了 原 图 像 的 4 
个 灰 度 变 化 版 本 ; 接着 又 分 别 对 这 4 幅 图 像 进行 了 直方 图 均衡 化 处 理 并 











显示 了 他 们 在 处 理 前 、 后 的 直方 图 。 
I = imread('pout.tif"); % 读 入 原 图 像 
[= im2doublel(]1); 
% 对 于 对 比 度 变 大 的 图 像 
IL = 2 *1-55/255; 
subplot(4,4,1); 
imshow(11); 
subplot(4,4,2); 
imhist(I1); 
subplot(4,4,3); 
imshow(histeq(11)); 
subplot(4,4,4); 
imhist(histeq(11)); 
% 对 于 对 比 度 变 小 的 图 像 
12=0.5*I1+55/255; 
subplot(4,4,5); 
imshow(I2 ); 
subplot(4,4,6); 
imhist(I2 ); 
subplot(4,4,7); 
imshow(histeq(12)); 
subplot(4,4,8); 
imhist(histeq(12)); 
% 对 于 线性 增加 亮度 的 图 像 
I3 = 工 + 55/255; 
subplot(4,4,9); 
imshow(13); 








subplot(4,4,10); 

imhist(13); 

subplot(4,4,11); 
imshow(histeq(I3)); 
subplot(4,4,12); 
imhist(histeq(I3)); 

% 对 于 线性 减 小 亮度 的 图 像 
I4 = 工 - 55/255; 
subplot(4,4,13); 

imshow(I4); 

subplot(4,4,14); 

imhist(I4); 

subplot(4,4,15); 
imshow(histeq(I4)); 
subplot(4,4,16); 
imhist(histeq(14)); 

上 述 程序 的 运行 的 结果 如 图 3.17 所 示 。 
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(b) 对 比 度 较 低 图 像 〈 左 ) 的 直方 图 均衡 化 效果 ( 右 ) 
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(c) 亮度 较 高 图 像 ( 左 ) 的 直方 图 均衡 化 结果 ( 右 ) 
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(d) 亮度 较 低 图 像 〈( 左 ) 的 直方 图 均衡 化 结果 ( 右 ) 








A 图 3.17 不 同 亮 度 、 对 比 度 图 像 的 直方 图 均衡 化 效果 


从 图 3.17 中 我 们 发 现 ， 将 直方 图 均衡 化 算法 应 用 于 左 侧 的 腕 度 、 
对 比 度 不 同 的 各 个 图 像 后 ， 得 到 了 右 侧 直方 图 大 致 相同 的 图 像 ， 这 体现 
了 直方 图 均衡 化 作为 强大 上 自 适 应 性 的 增强 工具 的 作用 。 当 原始 图 像 的 直 
方 图 不 同 而 图 像 结 构 性 内 容 相 同时 ， 直 方 图 均衡 化 所 得 到 的 结果 在 视觉 
上 几乎 是 完全 一 致 的 。 这 对 于 在 进行 图 像 分 机 和 比较 之 前 将 图 像 转化 为 
统一 的 形式 是 十 分 有 荔 的 。 

从 灰 度 直方 图 的 意义 上 说 ， 如 有 果 一 幅 图 像 的 直方 图 非 零 范围 占有 上 所 
有 可 能 的 灰 度 级 并 且 在 这 些 灰 度 级 上 均 义 分布， 那么 这 幅 图 像 的 对 比 度 
较 高 ， 而 且 灰 度 色调 较为 丰富 ， 从 而 易于 进行 判读 。 和 直方 图 均衡 化 算法 
恰恰 能 满足 这 一 要 求 。 

本 书后 面 将 要 介绍 的 很 多 图 像 处 理 方法 都 是 以 归 一 化 为 目的 的 ， 比 
如 第 4 章 几何 变换 就 是 研 完 一 种 几何 失真 的 归 一 化 处 理 。 











3.8 直方 图 规定 化 








直方 图 均衡 化 算法 可 以 目 动 确定 灰 度 变换 函数 ， 从 而 获得 具有 均匀 
直方 图 的 输出 图 像 。 它 主要 用 于 增强 动态 范围 侦 小 的 图 像 对 比 度 ， 丰 语 
图 像 的 灰 度 级 。 这 种 方法 的 优点 是 操作 简单 ， 且 结果 可 以 预知 ， 当 图 像 
需要 上 自动 增强 时 是 一 种 不 错 的 选择 。 

但 有 时 希望 可 以 对 变换 过 程 加 以 控制 ， 如 能 够 人 为 地 修正 直方 图 的 
形状 ， 或 者 说 是 获得 具有 指定 直方 图 的 输出 图 像 。 这 样 束 可 以 有 选择 地 
增强 某 个 灰 度 范围 内 的 对 比 度 或 使 图 像 灰 度 值 满足 茶 种 特定 的 分 布 。 这 
种 用 于 产生 具有 特定 直方 图 的 图 像 的 方法 叫做 直方 图 规定 化 ， 或 直方 图 
匹配 。 




















3.8.1 理论 基础 


直方 图 规定 化 是 在 运用 均衡 化 原理 的 基础 上 ， 通 过 建立 原始 图 像 和 
期 望 图 像 〈 待 匹配 直方 图 的 图 像 ) 之 间 的 关系 ， 使 原始 图 像 的 直方 图 匹 
配 特定 的 形状 ， 从 而 弥补 了 直方 图 均衡 不 具备 交互 作用 的 特性 。 

其 匹配 原理 是 先 对 原始 的 图 像 均衡 化 。 





Sr) =| pr()dn (3-14) 


同时 对 符 匹 配 直方 图 的 图 像 进行 均衡 化 处 理 。 





v=g(z)=| p:(Wd4V (3-15) 


由 于 都 是 均衡 化 ， 故 可 令 s=v， 则 


v=g (9)=g (f(r)) (3-16) 





于 是 我 们 可 以 按照 如 下 的 步骤 由 输入 图 像 得 到 一 个 具有 规定 概率 密 
度 函 数 的 图 像 。 

(1) 根据 式 3-14 得 到 变换 关系 f(r)。 

(2) 根据 式 3-15 得 到 变换 关系 g(z)。 

(3) 求 得 有 反 变换 函数 gi 。 

(4) 对 输入 图 像 所 有 像素 应 用 式 3-16 中 的 变换 ， 从 而 得 到 输出 图 
像 。 

当然 ， 在 实际 计算 中 我 们 利用 的 是 上 述 公 式 的 离散 形式 ， 这 样 就 不 
必 去 关心 函数 fmD、g(Z) 以 及 反 变 换 函 数 g :上 具体 的 解析 形式 ， 而 可 以 直 
接 将 它们 作为 映射 表 处 理 了 。 其 中 ，f(r) 为 输入 图 像 均衡 化 的 离散 灰 度 
级 映射 关系 ; g(z) 为 标准 图 像 均 衡 化 的 的 离散 灰 度 级 映射 关系 ; 而 gl 则 
是 标准 图 像 均 衡 化 的 逆 映 射 关系 ， 它 给 出 了 从 经 过 均衡 化 处 理 的 标准 化 
图 像 到 原 标准 图 像 的 离散 灰 度 映射 ， 相 当 于 均衡 化 处 理 的 逆 过 程 。 


3.8.2 Matlab 实 现 


histeq 函数 不 仅 可 以 用 于 直方 图 均衡 化 ， 也 可 以 用 于 直方 图 规定 
化 ， 此 时 需要 提供 可 选 参数 hgram。 调 用 语法 如 下 。 

[J, 工 = histeq(I, hgram) 

函数 会 将 原始 图 像 I 处理 成 一 幅 以 用 户 指 定 同 量 hgram 作 为 直方 图 的 
图 像 。 

参数 hgram 的 分 量 数目 即 为 直方 图 的 收集 箱 数 日 。 对 于 double 型 图 
像 ，hgram 的 元 素 取 值 范 围 是 [0, 1]; 对 于 uint8 型 图 像 为 [0, 255]; 对 于 
uint16 型 图 像 则 为 [0, 65535]。 

其 他 参数 的 意义 与 在 直方 图 均衡 化 中 的 相同 。 

[ 例 3.4] 直 方刚 匹配 

下 面 的 程序 实现 了 从 图 像 I 分 别 到 图 像 I1 和 L2 的 直方 图 匹配 。 

I = imread('pout.tif);”% 读 入 原 图 像 

I1 = imread('coins.png"); 9% 读 入 要 匹配 直方 图 的 图 像 

I2 = imread('circuit.tif”);”% 读 入 要 [匹配 直方 图 的 图 像 

% 计算 直方 图 

[hgram1, x] = imhist(I1); 














[hgram2, x] = imhist(12); 
% 执行 直方 图 均衡 化 
J1=histeq(l,hgram!1); 
J2=histeq(l,hgram2); 


% 绘图 

subplot(2,3, 1); 
imshow(]);title(' 原 图 "); 
subplot(2,3,2); 


imshow(I1); title(' 标 准 图 1); 


subplot(2,3,3); 

imshow(I2); title(' 标 准 图 2"); 

subplot(2,3,5); 

imshow(J1); title( 规 定 化 到 1'") 

subplot(2,3,6); 

imshow(J2);title(' 规 定 化 到 2"); 

% 绘 直 方 图 

figure; 

subplot(2,3, 1); 

imhist(Dititle(' 原 图 ); 

subplot(2,3,2); 

imhist(11); title(' 标 准 图 1"); 

subplot(2,3,3); 

imhist(12); title(' 标 准 图 2"); 

subplot(2,3,5); 

imhist(J1); title(' 规 定 化 到 1") 

subplot(2,3,6); 

imhist(J2);title(' 规 定 化 到 2); 

上 述 程序 的 运行 结果 如 图 3.18 和 图 3.19 所 示 。 可 以 看 到 ， 经 过 规定 
化 处 理 ， 原 图 像 的 直方 图 与 目标 图 像 的 直方 图 变 得 较为 相似 。 





标准 图 2 


规定 化 到 1 规定 化 到 2 





A 图 3.18 直方 图 规定 化 结果 


原 图 标准 图 1 标准 图 2 规定 化 到 1 规定 化 到 2 
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4 图 3.19 直方 图 规定 化 后 的 灰 度 直方 图 


直方 图 规定 化 本 质 上 是 一 种 拟 合 过 程 ， 因 此 变换 得 到 的 直方 图 与 标 
准 目标 图 像 的 直方 图 并 不 会 完全 一 致 。 然 而 即使 只 是 相似 的 拟 合 ， 仍 然 
使 规定 化 的 图 像 在 腕 上 度 与 对 比 度 上 具有 类 似 标准 图 像 的 特性 ， 这 正 是 直 
方 图 规定 化 的 目的 所 在 。 








第 4 音 pa 

包含 相同 内 容 的 两 幅 疼 像 可 能 由 于 成 像 角 度 、 透 视 关 系 刀 至 镜头 目 
吴 原 因 所 造成 的 几何 失真 而 呈现 截然 不 同 的 外 观 ， 这 就 给 观测 者 或 是 图 
像 识别 程序 带 来 了 困扰 。 通 过 适当 的 几何 变换 可 以 最 大 程度 地 消除 这 些 
几何 失真 所 产生 的 负面 影响 ， 有 利于 我 们 在 后 续 的 处 理 和 识别 工作 中 将 
注意 力 集中 于 图 像 的 内 容 本 喘 ， 更 确切 地 说 是 图 像 中 的 对 象 ， 而 不 是 该 
对 象 的 角度 和 位 置 等 。 因 此 ， 儿 何 变换 半音 作为 其 他 图 像 处 理应 用 的 预 
处 理 步 又， 是 图 像 归 一 化 的 核心 工作 之 一 。 

本 章 的 知识 和 技术 热点 

e 图 像 的 各 种 几何 变换 ， 如 平移 、 镜 像 和 旋转 等 

e 插值 算法 

e 图 像 配 准 

本 章 的 典型 案例 分 析 

e 人 上 脸 图 像 的 配 准 

















图 像 儿 何 变 换 又 称 为 图 像 空 间 变 换 ， 它 将 一 幅 图 像 中 的 坐标 位 置 映 
财 到 为 一 幅 图 像 中 的 新 坐标 位 置 。 我 们 学 习 儿 何 变 换 的 关键 残 是 要 确定 
这 种 空间 映射 关系 ， 以 及 映射 过 程 中 的 变换 参数 。 

几何 变换 不 改变 图 像 的 像素 值 ， 只 是 在 图 像 平 面 上 进行 像素 的 重新 
安排 。 一 个 几何 变换 需要 两 部 分 运算 : 首先 是 空间 变换 所 需 的 运算 ， 如 
平移 、 旋 转 和 镜像 等 ， 需 要 用 它 来 表示 输出 图 像 与 输入 图 像 之 间 的 〈 像 
素 ) 映射 关系 ; 此 外 ， 还 需要 使 用 灰 度 插值 算法 ， 因 为 按照 这 种 变换 关 
系 进 行 计 算 ， 输 出 图 像 的 像素 可 能 被 映射 到 输入 图 像 的 非 整 数 坐 标 上 。 














设 原 图 像 f(x0,y0) 经 过 几何 变换 产生 的 目标 图 像 为 g(x1,y1)， 则 该 空 
间 变 换 〈 上 映射 ) 关系 可 表示 为 
Xi = Ss(Xo, yo0) (4-] ) 
y1 =t(xo, yo0) (4-2) 
其 中 ， s(xXo yo) 和 和 t(xoy0) 为 由 f(x0,yo) 到 g(x1,y1) 的 坐标 变换 函数 。 例 
如 ， 当 x1= s(xXo.y0)= 2X0，y1= t(xoyo)=2yo 时 ， 变 换 后 的 图 像 gCxuyTD) 只 古 
简单 地 在 x 和 y 两 个 空间 方向 上 将 f(x0,y0) 的 尺寸 放大 一 倍 。 因 此 ， 我 们 
看 到 只 要 掌握 了 有 关 变 换 函 数 s(xo yo) 和 t(xoyo) 的 情况 ， 就 可 以 遵循 下 面 
的 步骤 实现 几何 变换 。 





算法 4.1 
根据 空间 变换 的 映射 和 关系， 确定 变换 后 目标 图 像 的 大 小 《〈 行 、 列 范 
围 ) ; /有 些 变换 可 能 改变 图 像 大 小 
计算 逆 变 换 s (jbiD) 和 ft (ji 
逐 行 扫描 目标 图 像 gCxuyi)， 对 于 g(CxuyD) 中 的 每 一 点 (ioio): 
{ 





根据 空间 变换 的 映射 关系 ， 计 算得: 
jo=s- (ji);V/ 直 接 通过 映射 关系 计算 得 到 的 横 坐 标 ， 可 能 
不 是 整数 
io=t (ji);V/ 直 接 通过 映射 关系 计算 得 到 的 纵 坐 标 ， 可 能 
不 是 整数 
根据 选用 的 插值 方法 : 
Goio) = interp(o ,io ); /对 于 非 整数 坐标 (jo”, io 〉 需 要 插值 
If (ioio) 在 图 像 { 之 内 
找 贝 对 应 像素 : g0u5i) = fjoio); 
Else 


g(j1,i1) = 255; 


} 

对 于 几何 失真 图 像 的 复原 (校正 〉 过 程 正好 是 上 述 变 换 的 逆 过 程 。 
X0 二 入 (2 水] ) (4-3) 
yo =17 (x1, 1) (4-4) 


式 4-3 和 式 4-4 表 示 相 应 的 由 g(xjyyj) 到 f(x0,yo) 的 逆 变 换 。 此 时 ， 经 
过 某 种 几何 变换 而 失真 的 图 像 g(x1,y1) 是 我 们 要 复原 的 对 象 ， 原 始 图 像 
f(xo,yo) 是 我 们 复原 的 目标 。 

对 服务 于 识别 的 图 像 处 理 而 言 ， 作 为 图 像 几何 归 一 化 的 逆 变 换 过 程 
的 应 用 常常 更 为 广泛 。 当 然 ， 在 变换 中 究竟 以 谁 作 为 原始 图 像 
f(xo,yo)， 以 谁 作为 变换 图 像 g(x1,y1) 并 不 是 绝对 的 ， 这 完全 取决 于 我 们 在 
分 析 特 定 问题 过 程 中 的 立场 。 比 如 说 对 于 图 4.1 中 的 两 幅 图 像 ， 一 般 的 
做 法 是 以 图 4.1 (a) 为 原始 图 像 ， 图 4.1 (b) 为 变换 图 像 。 这 是 因为 在 
图 4.1 (a) 中 我 们 关心 的 对 象 ( 数 字 和 字母 ， 处 于 一 个 便于 观察 的 角度 
( 正 的 ) 。 但 我 们 也 完全 可 以 将 图 4.1 (b) 视 为 f(x0,yo)， 而 图 4.1 (a) 
为 g(x1,y1)。 此 时， 相应 的 映射 关系 s 和 t 也 会 发 生变 化 。 

注意 

当 图 像 归 一 化 《参见 3.7 节 ) 用 于 消除 几何 因素 《视角 、 方 位 等 ) 
造成 的 图 像 外 观 变化 时 ， 称 为 《图 像 ) 几何 归 一 化 ， 它 能 够 排除 对 象 间 
几何 关系 的 差别 ， 找 出 图 像 中 的 那些 几何 不 变量 ， 从 而 得 知 这 些 对 象 原 
本 就 是 一 样 的 或 属于 相同 的 类 别 。 

















A 图 4.1 旋转 前 后 的 两 幅 图 像 


4.2 图 像 平移 


图 像 平移 就 是 将 图 像 中 所 有 的 点 按照 指定 的 平移 量 水 平 或 者 垂直 移 
动 。 


4.2.1 平移 的 变换 公 于 





设 〈xoyo) 为 原 图 像 上 的 一 点 ， 图 像 水 平平 移 量 为 k， 垂 直 平 移 量 
为 b， 如 图 4.2 所 示 。 





A 图 4.2 平移 变换 坐标 图 
则 平移 之 后 的 点 坐标 〈xiyi) 变 为 


[a = Xo + 
ly 之 Vo 一 Fy 


用 矩阵 表示 为 


1 00 
[2 yl 1]=[ xo yo 1] 0 10 


wn 


对 变换 和 矩阵 求 逆 ， 可 以 得 到 逆 变 换 


l: O°0 
[xo Vo 1] =[ XI | 1] i 


一 到 一 人 ] 
{ X= 1 

即 yo=1*= 可 

这 样 ， 平 移 后 的 目标 图 像 中 的 每 一 点 都 可 以 在 原 图 像 中 找到 对 应 的 
点 。 例 如 ， 对 于 新 图 中 的 (i,j) 像素， 代入 上 面 的 方程 组 ， 可 以 求 出 对 
应 原 图 中 的 像素 it，j-t) 。 而 此 时 如 果 b 大 于 越 W 大 于 j， 则 点 Gi- 
kk，j-ty) 超出 了 原 图 的 范围 ， 可 以 直接 将 它 的 像素 值 统一 设置 为 0 或 者 
255。 

对 于 原 图 中 被 移出 图 像 显示 区 域 的 点 通常 也 有 两 种 处 理 方法 ， 可 以 
直接 丢弃 ， 也 可 以 通过 适当 增加 目标 图 像 的 尺寸 (将 新 生成 的 图 像 宽 度 











增加 tk， 高 度 增 加 fy ) 的 方法 使 得 新 图 像 中 能 够 包含 这 些 点 。 在 稍 后 给 
出 的 程序 实现 中 ， 我 们 采用 了 第 一 种 处 理 方法 。 


4.2.2 平移 的 Matlab 实 现 


imtransform 函数 用 于 完成 一 般 的 二 维 空间 变换 ， 本 章 后 续 介 绍 的 很 
多 几何 变换 都 可 以 通过 该 函数 来 实现 ， 原 型 如 下 。 
B = imtransform(A,TFORM,method); 
e 参数 A 为 要 进行 几何 变换 的 图 像 。 
空间 变换 结构 TFORM 指 定 了 具体 的 变换 类 型 。 
. en 数 选 择 插值 方法 ， 其 合法 值 


如 表 4.1 所 示 。 








表 4.1 合法 值 














双 三 次 插值 
双 线 性 插值 
最 近邻 插值 


bicubic” 









bilinear' 







mearest” 


这 些 插值 方式 的 具体 含义 请 参见 4.7 节 。 默 认 时 为 双 线 性 插值 


一 bilinear 。 

函数 输出 B 为 经 imtransform 变 换 后 的 目标 图 像 。 

可 以 通过 两 种 方法 来 创建 TFORM 结 构 ， 即 使 用 maketform 函 数 和 
cp2tform 函 数 。cp2tform 是 一 个 数据 拟 合 函 数 ， 它 需要 原 图 像 与 目标 图 
像 之 间 的 对 应 点 对 作为 输入 ， 用 于 确定 基于 控制 点 对 的 几何 变换 关系 ， 
我 们 将 在 4.8 市 图 像 配 准 中 对 它 进行 介绍 ， 这 里 仪 给 出 使 用 maketform 

函数 获得 TFORM 结 构 的 方法 。 


T=maketform(transformtype, Matrix); 











e 参数 transformtype 指 定 了 变换 的 类 型 ， 如 常见 的 'affine' 为 二 维 或 多 
维 仿 射 变换 ， 包 括 平 移 、 旋 转 、 比 例 、 拉 伸 和 错 切 等 。 
e Matrix 为 相应 的 仿 射 变换 矩阵 ， 例 如 对 于 平移 变换 ， 该 矩阵 为 
] 00 


0 10 

3 
使 用 imtransform 函 数 实现 图 像 平 移 的 方法 如 例 4.1 所 示 。 
[ 例 4.1] 图 像 平移 


本 例 将 图 像 平移 的 实现 封装 在 imMove() 函 数 中 ， 读 者 可 以 在 金 羽 
图 书 论坛 ( http://bbs. book95.com) 的 “ 金 羽 图 书 与 答疑 "板块 与 本 书 同 
名 的 主题 帖子 附件 的 “chapter3/code/imMove.m”* 中 找到 它 。 

function I_out = imMovel(], t;, ty) 

% 平移 变换 

% 输入 : 工 - 输入 图 像 

% tr 水 平方 向 平移 量 

% ”ty- 竖 直 方向 平移 量 

% 输出 : I_out- 输出 图 像 

tform = maketform('affine',[1 0 0;0 1 0; txty1]); 

9% 定 义 平 移 变换 矩阵 

L_out = imtransform(Itform,XData',[1 size(I2)],YData',[1 size(I,1)]); 
% 图 像 平移 

subplot(1,2,1),imshow!(]); 

title(' 原 图 像 '); 

Subplot(1,2,2),imshow(L_ out); 

title( 和 平移 图 像 ); 


Ns 
;十 京 


由 于 平移 变换 前 后 的 2 幅 图 像 像 素 本 号 及 其 关系 并 无 变化 ， 导 致 与 
输入 图 像 相 同 尺寸 的 输出 图 像 L_out 在 显示 时 与 输入 图 像 I 没 有 任何 差 
别 。 在 imtransform 函 数 中 加 入 了 XData 和 YData 选 项 可 以 解决 之 一 问题 。 
本 章 后 续 的 一 些 几何 变换 则 不 需要 使 用 XData 与 YData 选 项 。 

下 面 的 命令 调用 imMove0) 函 数 后 的 平移 效果 如 图 4.3 所 示 ， 注 意 到 
对 于 映射 在 原 图 像 之 外 的 点 算法 直接 采用 黑色 (0) 填充， 并 丢弃 了 变 
换 后 目标 图 像 中 被 移出 图 像 显示 区 域 的 像素 。 

I_out = imMove(L 10, 30); % 水 平方 辐 平移 10 个 像素 ， 竖 直方 同 平移 
30 个 像素 


原 图 像 平移 图 像 





A 图 4.3 平移 变换 效果 


4.3 镜 


镜像 变换 又 分 为 水 平 镜像 和 竖 直 镜像 。 水 平 镜像 即将 图 像 左 半 部 分 
和 右 半 部 分 以 图 像 竖 直 中 轴线 为 中 心 轴 进 行 对 换 ， 而 竖 直 镜像 则 是 将 图 
像 上 半 部 分 和 下 半 部 分 以 图 像 水 平 中 轴线 为 中 心 轴 进 行 对 换 ， 如 图 4.4 
所 示 。 


x0(x1) 闭 
| 





(a) 水 平 镜像 坐标 图 (b) 竖 直 镜像 坐标 图 


A 图 4.4 镜像 变换 ， 其 中 心 轴 在 图 中 以 虚线 标 出 





e 水 平 镜像 的 变换 关系 为 


-1 00 
[2 mi 1]=[xo yo 1] 0 10|=[Width-xo yo 1] 
Width 0 1 
对 和 矩阵 求 逆 得 到 
-1 00 
[xo yo lj=[x ml 0 101=[Width-x y: 1] 
Width 0 1 


。 坚 直 镜像 变换 关系 可 形式 化 地 描述 如 下 。 


1 0 0 
[a y lj[xo yo HI0 -1 0|=[xo Height- yo 1] 
0 Height 1 


4.3.2 


1 0 0 


[xo yo 1=[x mn 1]I0 =- 0|=[x: Height- y; 


0 Height 1 
镜像 的 Matlab 实 现 


一 个 镜像 变换 的 示例 程序 如 例 4.2 所 示 。 

[ 例 4.2] 图 像 镜像 

% 镜像 变换 

A=imread(Pout.tif ); 

[height,width,dim|=size(A); 

tform = maketform('affine',[-1 0 0;0 1 0; width 0 1]); 
% 定 义 水 平 镜 像 变 换 矩 阵 

B = imtransform(A,tform,nearest ); 

tform2 = maketform('affine',[1 0 0;0 -1 0; 0 height 1]); 
% 定 义 竖 直 镜像 变换 矩阵 

C = imtransform(A ,tform2,'nearest'); 
subplot(1,3,1),imshow(A); 

title(' 原 图 像 ); 

subplot(1,3,2),imshow(B); 

title(' 水 平 镜像 "); 

subplot(1,3,3),imshow(C); 

title(' 坚 直 镜 像 ); 

运行 结果 如 图 4.5 所 示 。 





1] 
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原 图 像 水 平 镜像 坚 直 镜像 





4 图 4.5 镜像 变换 效果 图 


4.4 图 像 园 置 





图 像 转 置 是 将 图 像 像素 的 x 坐 标 和 y 坐 标 互 换 ， 如 图 4.6 所 示 。 转 置 
后 图 像 的 大 小 会 随 之 改变 ， 高 度 和 宽度 将 互 换 。 





x0 Xl1(y0) x 


yl1(x0) 





和 图 4.6 转 置 变换 华 标 图 











转 置 变换 的 公式 如 下 。 
010 
[x 及] ] ]=[ X0 Vo |] 100 =[ yo Xo 1] 
001 
010 
100 
显然 ， 转 置 矩 阵 \001/ 的 道 矩 阵 仍 为 其 自身 。 故 转 置 变换 的 逆 变 
换 具 有 相同 的 形式 。 
4.4.2 Matlab 实现 


转 置 变换 的 实现 程序 如 例 4.3 所 示 。 
[ 例 4.3] 图 像 转 置 

% 图像 转 置 

A=imread(Pout.tif ); 

tform = maketform('affine',[0 1 0;1 0 0; 0 0 1]); 
% 定 义 转 置 变换 矩阵 

B = imtransform(A,tform,nearest ); 
subplot(1,2,1),imshow(A); 

title(' 原 图 像 "); 
subplot(1,2,2),imshow(B); 

title(' 图像 转 置 ); 

转 置 结果 如 图 4.7 所 示 。 


在 学 习 了 4.6 节 图 像 旋转 之 后 ， 有 兴趣 的 读者 也 可 答 试 通过 移 水 平 
镜像 ， 再 逆 时 针 旋 转 90° 的 方式 来 实现 图 像 转 置 。 
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原 图 像 





A 图 4.7 转 置 效 果 图 


4.5 


图 像 缩 放 是 指 图 像 按照 指定 的 比率 放大 或 者 缩小 ， 如 图 4.8 所 示 。 





假设 图 像 x 轴 方向 的 缩放 比率 Sx，y 轴 方 同 的 缩放 比率 Sy， 相 应 的 变 





S$, 井 沁 
[x J 1]=[ xo yo 1] 0 S»0 =[ xo 思 > ]J0 Ss 1] 
0 01 
其 逆 运 算 如 下 。 
0 0 
% 
[Bl i 0 


直接 根据 缩放 公式 计算 得 到 的 目标 图 像 中 ， 某 些 映射 源 坐 标 可 能 不 
是 整数 ， 从 而 找 不 到 对 应 的 像素 位 置 。 例 如 ， 当 Ss、 三 $y 二 2 时 ， 图 像 放 
大 2 倍 ， 放 大 图 像 中 的 像素 (0, 1) 对 应 于 原 图 中 的 像素 (0, 0.5) ， 这 
不 是 整数 坐标 位 置 ， 自 然 也 就 无 法 提取 其 灰 度 值 。 因 此 我 们 必须 进行 某 
种 近似 处 理 ， 一 种 简单 的 策略 是 直接 将 它 最 邻近 的 整数 坐标 位 置 
《0,0) 或 者 (0,1〉 处 的 像素 灰 度 值 赋 给 它 ， 这 就 是 所 谓 的 最 近邻 插 
值 。 当 然 还 可 以 通过 4.7 市 将 介绍 的 其 他 插值 算法 来 近似 。 























缩放 变换 仍然 可 借助 前 面 几 节 中 使 用 的 imtransform 函 数 来 实现 。 此 
外 ，Matlab 还 提供 了 专门 的 图 像 迪 放 函数 imresize， 具 体 调 用 形式 为 

B=imresize(A, Scale, method); 

e 参数 A 为 要 进行 缩放 的 原始 图 像 。 

e Scale 为 统一 的 缩放 比例 。 

e@ 可 选 参数 method 用 于 为 imresize 指 定 插值 方法 ， 其 合法 取 值 同 
imtransform 函 数 ， 但 默认 为 最 近邻 插值 。 

输出 也 为 缩放 后 的 图 像 。 

例 4.4 给 出 了 图 像 等 比例 缩放 的 Matlab 实 现 。 

[ 例 4.4] 图 像 等 比例 缩放 

% 图 像 缩放 

A = imread(Ppout.tif ); 

B = imresize(A,1.2,nearest ); 

% 图 像 扩 大 1.2 倍 

figure,imshow(A);title(' 原 图 像 "); 

figure,imshow(B);title( 图 像 缩 放 ); 

程序 运行 结果 如 图 4.9 所 示 。 


四 Figure 2 
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A 图 4.9 绾 放 变换 效果 图 


如 末 和 希望 在 zx 和 y 方 向 上 以 不 同比 例 进 行 缩放 ， 可 使 用 如 下 方式 调用 
imresize 子 数 。 

B = imresize(A,[mrows ncols],method); 

向 量 参数 [mrows ncols] 指 明了 变换 后 目标 图 像 B 的 具体 行 数 (高 ) 
和 列 数 〈 宽 ) ， 其 余 均 与 等 比例 缩放 时 的 调用 相同 ， 这 里 不 再 痪 述 。 


4.6 图 像 旋转 


旋转 一 般 是 指 将 图 像 围 绕 某 一 指定 点 旋转 一 定 的 角度 。 旋 转 通 常 也 
会 改变 图 像 的 大 小 ， 和 4.2 贡 中 图 像 平移 的 处 理 一 样 ， 可 以 把 转 出 显示 
区 域 的 图 像 截 去 ， 也 可 以 改变 输出 图 像 的 大 小 以 扩展 显示 范围 。 





如 图 4.10 所 示 ， 点 P(xo, y0) 红 原 点 逆 时 针 旋 转角 上 度 9 到 扣 P1(x1, y1)。 





A 图 4.10 旋转 变换 坐标 图 
4 =|OP= Vx +y”， 则 有 


sinGg = yo/L, cosa=xo/L 


到 达 P1 点 后 ， 有 


sin(& +0)=y/L=cosOsinag +SimnOcosCw 


cos (+0)=x/L=cosOcosa -smnOsmnw 


XI=coSO xo—sin0 yo 


y1=c0s0O yo—sin0 xo 


从 而 得 出 旋转 变换 公式 为 


cosO SinO 0 
[x yl 1]=[ xo yo 1] -SimoOcosO0 
0 0 1 


相应 的 ， 其 逆 运 算 为 


coSO -SinO0 
[xo yo 1]=[x: 7 HIsnO cos@ 0 
0 0 1 





在 4.6.1 中 给 出 的 旋转 是 以 坐标 原点 为 中 心 进行 的 ， 那 么 如 何 围绕 任 
意 的 指定 点 来 旋转 呢 ? 将 平移 和 旋转 操作 相 结 合 即 可 ， 即 先进 行 坐标 系 
平移 ， 再 以 新 的 坐标 原点 为 中 心 旋 转 ， 之 后 将 新 原点 平移 回 原 坐 标 系 的 
原点 。 这 一 过 程 可 归纳 为 以 下 3 个 步骤 。 

(1) 将 坐标 系 工 变 成 工 。 

(2) 将 该 点 顺 时 针 旋 转 6 角 。 

(3) 将 坐标 系 工 变 回 工 。 

下 面 我 们 就 以 围绕 图 像 中 心 的 旋转 为 例 ， 具 体 说 明 上 述 的 变换 过 
程 。 如 图 4.11 所 示 ， 坐 标 系 I 以 图 像 左 上 角 点 为 原点 ， 向 右 为 x 轴 正 方 
向 ， 向 下 为 y 轴 正方 向 ， 而 坐标 系 IJ 是 以 图 像 的 中 心 为 原点 ， 向 右 为 x 轴 
正方 向 ， 向 上 为 y 轴 正方 向 。 那 么 坐标 系 I 与 坐标 系 I 之 间 的 转换 关系 如 
何 呢 ? 














A 图 4.11 两 种 坐标 系 间 的 转换 关系 
设 图 像 的 宽 为 w， 高 为 hb， 则 容易 得 到 


x] xll ] 0 0 
y=| 误 0 -10 
] ] || 0.Sw 0.5h 1 


相应 的 逆 变换 为 


XI | ] 0 0 
ylI | 0 -1 0 
] 1 || -0.$w 0.S7 1 


至此， 我 们 已 经 实现 了 上 述 3 个 步骤 中 的 第 1 步 和 第 3 步 ， 再 加 上 第 2 
步 的 旋转 变换 就 得 到 了 围绕 图 像 中 心 点 旋转 的 最 终 变换 怎 阵 ， 该 窍 阵 实 
际 上 是 3 个 变换 步骤 中 分 别 用 到 的 3 个 变换 矩阵 的 级 联 。 





XI [ xo 1 0 0 || cos(O) -sin(O) 0 ] 0 0 
yi|=| yo 0 -1 0 sin(g) cos(O) 0 0 一 ] 0 
1 | 1 || -0.SWold 0.SHold 1 0 0 ] || 0.SWnew 0.5Hnew 1 


xo | cos(O) Sin(O) 0 
=| yo —sin(0) cos(O) 0 


| -0.5 Wold .cos(9)+0.5Hold .sin(O)+0.3Wnew-0.3Wold » sin(0)—0.5Hold » cos(0)+0.5Hnewl 





式 中 : Wold、Hold、Wnew、Hnew 分 别 表示 原 图 像 和 新 图 像 的 宽 
上 式 的 逆 变 换 为 


Xo Xl ] 0 0 | cos(O) sin(O) 0 1 0 0 
yo |=| yi 0 一 0 || -Sin(O) cos(O) 0 0 -ll 0 
1 1 || -0.SWnew 0.SHnew 1 0 0 1 || 0.5Wold 0.5Hold 1 
XI cos(O) -Sin(O) 0 
=| yl sin(0) cos(0) 0 
1 || -0.SWnew。cos(O)-0.SHnew。sin(O)+0.SWold0.SWnew » sin(0)—0.5Hnew » cos(0)+0.5Hold 1 
这 样 ， 我 们 就 可 以 根据 上 面 的 刻 变 换 人 公式， 按照 算 法 4.1 中 的 描述 
来 实现 围绕 图 像 中 心 的 旋转 变换 。 类 似 地 ， 可 以 进一步 得 出 以 任意 点 为 
中 心 的 旋转 变换 。 











4.6.3 施 转 的 Matlab 实 现 





图 像 旋转 变换 的 效果 受 有 具体 插值 方法 的 影响 较为 明显 ， 本 节 给 出 的 
实现 均 采 用 最 近邻 插值 ， 在 4.7 节 中 将 给 出 采用 不 同 的 插值 算法 时 图 像 
旋转 变换 的 效果 比较 。 

可 通过 4.6.2 中 学 习 的 方法 设置 适当 的 变换 结构 TFORM， 从 而 调用 
imtransform 来 实现 以 任意 点 为 中 心 的 图 像 旋转 。 此 外 ，Matlab 还 专门 提 
供 了 围绕 图 像 中 心 的 旋转 变换 函数 imrotate， 其 调用 方式 如 下 。 

B=imrotate(A,angle,method, 'crop'); 


e A 是 要 旋转 的 图 像 。 


e angle 为 旋转 角度 ， 单 位 为 度 ， 如 为 其 指定 一 个 正 值 ， 则 imrotate 


函数 按 逆 时 针 方 回旋 转 图 像 。 


致 。 


e@ 可 选 参 数 method 为 imrotate 函 数 指定 插值 方法 。 
e 'crop' 选 项 会 裁剪 旋转 后 增 大 的 图 像 ， 使 得 到 的 图 像 和 原 图 大 小 一 


下 面 的 例 4.5 给 出 了 图 像 旋转 的 Matlab 实 现 。 
[ 例 4.5] 图 像 旋转 

% 围绕 中 心 点 的 图 像 旋转 
A=imread('pout.tif'); 

% 最 近邻 插值 法 逆 旋 转 30*， 并 也 切 图 像 
B=imrotate( A,30,'nearest','crop'); 
subplot(1,2,1),imshow(A); 

title(' 原 图 像 "); 

subplot(1,2,2),imshow(B); 

title(' 逆 时 针 旋 转 30°"); 

程序 运行 结果 如 图 4.12 所 示 。 








加 Figure 1 
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原 图 像 送 时 针 旋 转 30" 








和 图 4.12 旋转 变换 效果 图 


4.7 插值 算法 


实现 几何 运算 时 ， 有 两 种 方法 。 第 一 种 称 为 网 前 映射 法 ， 其 原理 是 
将 输入 图 像 的 灰 度 一 个 像素 一 个 像素 地 转移 到 输出 图 像 中 ， 即 从 原 图 像 
坐标 计算 出 目标 图 像 坐标 : g(X1y1) = 下 (a(CXoyo), b(Xoyo) )。 前 面 的 平 
移 、 镜 像 等 操作 就 可 以 采用 这 种 方法 。 

男 外 一 种 称 为 向 后 映射 法 ， 它 是 疝 前 映射 变换 的 逆 ， 即 输出 像素 一 
个 一 个 地 映 冉 回 输入 图 像 中 。 如 果 一 个 输出 像素 映 冉 到 的 不 是 输入 图 像 
的 采样 栅 格 的 整数 坐标 处 的 像素 点 ， 则 其 灰 度 值 束 需要 基于 整数 坐标 的 
灰 度 值 进行 推断 ， 这 就 是 插值 。 由 于 向 后 映射 法 是 逐个 像素 产生 输出 图 
像 ， 不 会 产生 计算 渡 费 问 题 ， 所 以 在 缩放 、 旋 转 等 操作 中 多 采用 这 种 方 
法 ， 本 书 中 采用 的 也 全 部 为 癌 后 映射 法 。 





本 市 中 将 介绍 3 种 不 同 的 插值 算法 ， 处 理 效 果 好 的 算法 一 般 需 要 较 
大 的 计算 量 。 


4.7.1 最 近邻 插值 


这 是 一 种 最 简单 的 插值 算法 ， 输 出 像 系 的 值 为 输入 图 像 中 与 其 最 
近 的 采样 点 的 像素 值 。 例 如 ， 图 4.13 中 的 点 P0 在 几何 变换 中 被 映射 至 点 
P1， 但 由 于 点 PL1 处 于 非 整数 的 坐标 位 置 ， 无 法 提取 其 像 系 灰 度 值 。 所 
以 可 以 用 与 P1' 最 邻近 的 采样 点 P1 的 灰 度 值 近似 作为 P1' 的 灰 度 值 。 


Ww 





最 近邻 插值 可 表示 为 
flx,y) = g( round(x), round (7) ); 
最 近邻 插值 计算 简单 ， 而 且 在 很 多 数 情 况 下 的 输出 效果 也 可 以 接 
受 。 然 而 ， 最 近邻 插值 法 会 在 图 像 中 产生 人 为 加 工 的 痕迹 ， 详 见 例 


4.6。 而 我 们 在 之 前 各 种 变换 中 采用 的 均 为 双 线 性 插值 ， 它 是 imtransform 
函数 的 默认 插值 方式 。 





4.7.2 双 线 性 插值 


双 线 性 插值 又 称 为 一 阶 插值 ， 是 线性 插值 扩展 到 二 维 的 一 种 应 用 。 
它 可 以 通过 一 系列 的 一 阶 线 性 插值 得 到 。 

注意 

线性 (inear) ， 指 量 与 量 之 间 按 比例 、 成 直线 的 关系 ， 在 数学 上 
可 以 理解 为 一 阶 导数 为 常数 的 函数 。 线 性 插值 则 是 指 根据 两 个 点 的 值 线 
性 地 确定 位 于 这 两 个 点 连 线 上 的 某 一 点 的 值 。 

输出 像素 的 值 为 输入 图 像 中 距离 它 最 近 的 2x2 邻 域内 采样 点 像素 灰 
度 值 的 加 权 平 均 。 

设 已 知 单位 正方 形 的 顶点 坐标 分 别 为 f{(0,0)、f(1,0)、f(0,1)、 
f(1,1)， 如 图 4.14 所 示 ， 我 们 要 通过 双 线 性 插值 得 到 正方 形 内 任意 点 
f(x,y) 的 值 。 








A1,0) 





A 图 4.14 线性 插值 示意 图 
首先 对 上 端的 两 个 点 进行 线性 插值 ， 得 到 


fx,0)=A0,0)+x[A1,0)-A0,0)] (4-5) 





再 对 下 端的 两 个 顶点 进行 线性 插值 ， 得 到 
flx,1)=70,1)+x[A1,1)-70,1)] (4-6) 
最 后 ， 对 垂直 方向 进行 线性 插值 ， 得 到 
Axy)fxy) ty LAx,1)-Ax,0)] (4-7) 
综合 式 4-5 至 4-7， 整 理 得 出 
fxy)=[A1,0) -R00 T+ [RO,1) -RO OLA 1 +R,0)-AO, -A100 hy+A0,0) (4-8) 
上 面 的 推导 是 在 单位 正方 形 的 前 提 下 进行 的 ， 稍 加 变换 就 可 以 推广 
到 一 般 情 况 中 。 
线性 插值 的 假设 是 原 图 的 灰 度 在 两 个 像素 之 间 是 线性 变化 的 ， 显 然 
这 是 一 种 比较 合理 的 假设 。 因 此 在 一 般 情况 下 ， 双 线性 插值 都 能 取得 不 


错 的 效果 。 更 精确 的 方法 是 采用 曲线 插值 ， 即 认为 像素 之 间 的 灰 度 变化 
规律 符合 东 种 曲线 方程 ， 当 然 这 种 处 理 的 计算 量 是 很 大 的 。 


二 


4.7.3 





(A 





在 几何 运算 的 一 些 情况 中 ， 双 线性 插值 的 平滑 作用 会 使 图 像 的 细节 
退化 ， 而 其 斜率 的 不 连续 性 则 会 导致 变换 产生 不 希望 的 结果 。 这 些 都 可 
以 通过 高 阶 插值 得 到 弥补 ， 高 阶 插值 常用 卷 积 来 实现 。 输 出 像素 的 值 为 
输入 图 像 中 距离 它 最 近 的 4x4 领 域内 采样 点 像素 值 的 加 权 平 均值 。 

下 面 以 三 次 插值 为 例 ， 它 使 用 了 如 下 的 三 次 多 项 式 来 逼近 理论 上 的 
最 佳 插值 函数 sin(x)/x， 如 图 4.15 所 示 。 








jh 0<|x|<1 
S(x)=5 4—8|x|+5|x| —|xl Le 2 
0 |x| 宕 2 





A 图 4.15 高 阶 插值 示意 图 


上 式 中 |x| 是 周围 像素 沿 x 方 同 与 原 扩 的 距离 。 待 求 像素 (x,y) 的 灰 
度 值 由 其 周围 16 个 点 的 灰 度 值 加 权 插 值得 到 。 计 算 公 式 如 下 。 


f x,») =y (itujtv) = ABC 


式 中 


SG+T S(1+u) 


es S(v) 。 入 S(u) 
S(l—v) S(1—u) 
S(2—v) S(2—u) 


有 一 
TBD Fa FOI 
TO -DE 
ESD-D/GTL I GtLI+D/ GELI+D 





三 次 插值 方法 通常 应 用 在 光栅 显示 中 ， 它 在 允许 任意 比例 的 缩放 操 
作 的 同时 ， 较 好 地 保持 了 图 像 细节 。 

[ 例 4.6] 插 值 方 法 比较 。 

图 4.16 和 图 4.17 分 别 给 出 了 采用 最 近邻 、 双 线性 和 三 次 插值 时 对 于 
两 幅 不 同 图 像 的 旋转 效果 。 从 图 4.17 可 以 看 出 最 近邻 的 插值 方法 得 到 
的 结果 还 是 可 以 接受 的 ， 但 当 图 像 中 包含 的 像素 之 间 灰 度 级 有 明显 变化 
时 《图 4.16) ， 从 结果 图 像 的 锯齿 形 边 可 以 看 出 三 种 插值 方法 的 效果 依 
次 递减 ， 最 近 插 值 的 效果 明显 不 如 另外 两 个 好 ， 饥 齿 比较 多 ， 而 双 三 次 
插值 得 出 的 图 像 较 好 地 保持 了 图 像 的 细节 。 这 是 因为 参与 计算 输出 点 的 
像素 值 的 拟 合 点 个 数 不 同 ， 个 数 越 多 效果 越 精确 ， 当 然 参 与 计算 的 像素 
个 数 会 影响 计算 的 复杂 度 。 实 验 结果 也 清楚 的 表明 : 双 三 次 插值 法 花费 
的 时 间 比 另外 两 种 的 要 长 一 些 。 最 近邻 和 线性 插值 的 速度 在 此 次 图 像 处 
理 中 几乎 分 不 出 来 。 所 以 ， 在 计算 时 间 与 质量 之 间 有 一 个 折 中 问题 。 
































[4 Figure 1 局 操 民 
yy 


File Edit View Insert Tools Desktop Window lHelp 


DD 访 国 鲁 尺 太 习 名 民品 因 上 日 回 
原 图 像 最 近邻 插值 














双 线 性 插值 


A 图 4.16 插值 方法 比较 效果 图 1 
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A 图 4.17 插值 方法 比较 效果 图 2 


实现 3 种 插值 算法 的 Matlab 代 码 如 下 所 示 。 
% 插值 算法 比较 
A=imread('../rectangle.bmp'"); % 读 入 本 章 的 示例 算 形 图 片 
B = imrotate(A,30,'nearest'); 

C = imrotate(A,30,'bilinear'); 

D = imrotate(A,30,bicubic ); 

% 图 像 旋转 30* 的 插值 方法 比较 
subplot(2,2,1),imshow(A); 

title(' 原 图 像 ); 

subplot(1,3,1),imshow(B); 

title(' 最 近邻 插值 ); 
subplot(1,3,2),imshow(C); 
title(' 双 线性 插值 ); 
subplot(1,3,3),imshow(D); 

title( 双 三 次 插值 '); 





在 4.2 一 4.6 节 我 们 依据 算法 4.1 从 正 变换 的 角度 讲解 了 图 像 的 平移 、 
镜像 、 转 置 、 缩 放 和 旋转 变换 。 而 本 布 将 要 介绍 的 图 像 配 准 技术 则 是 站 
在 几何 失真 归 一 化 的 角度 ， 以 一 种 他 变换 的 思路 来 曾 述 几何 变换 。 





4.8.1 什么 是 忆 放 





所 谓 图 像 配 准 就 是 将 同一 场景 的 两 幅 或 多 幅 图 像 进行 对 准 。 如 航 衬 
照片 的 配 准 ， 以 及 在 很 多 人 脸 目 动 分 析 系 统 中 的 人 脸 归 一 化 ， 即 要 使 各 
张 照 片 中 的 人 脸 具 有 近似 的 大 小 ， 尽 量 处 于 相同 的 位 置 。 

一 般 来 说 ， 我 们 以 基准 图 像 为 参照 ， 并 通过 一 些 基 准点 (fiducial 
points) 找到 适当 的 空间 变换 关系 s 和 t， 对 输入 图 像 进 行 相应 的 几何 变 
换 ， 从 而 实现 它 与 基准 图 像 在 这 些 基准 点 位 置 上 的 对 齐 。 

下 面 就 以 人 上 脸 图 像 的 校准 为 例 ， 学 习 如 何在 Matlab 中 实现 图 像 配 








>> TIin = imread(face2.jpg); 


>> Ibase = imread(face1.jpg); 
>> figure 

subplot(1, 2, 1), imshow!(Iin); 
subplot(1, 2, 2), imshow(Ibase); 
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4 图 4.18 配 准 之 前 的 图 像 ， 左 侧 为 需要 配 准 的 图 像 ， 右 侧 为 基准 图 像 


(2) 标注 基准 点 对 ， 并 将 其 保存 至 工作 空间 。 

利用 Matlab 提供 的 cpselect 函 数 可 以 交互 式 地 选择 基准 点 。 在 命令 
行 中 按照 下 面 的 方式 调用 cpselect 可 以 启动 该 交互 工具 。 可 以 分 别 单 击 
两 幅 图 像 中 的 相同 部 分 选择 成 对 儿 的 基准 点 ， 如 眼睛 和 嘴角 ， 如 图 4.19 
所 示 。 
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A 图 4.19 利用 cpselect 交 互 地 选择 基准 点 对 


>> cpselect(Iin, Ibase); 
>> input_points 
input_points = 
81.8988 89.5000 
130.8988 72.0000 
106.3988 139.0000 
144.8988 122.0000 
>> base_points 


base_points = 


64.1540 111.3750 
112.1540 108.3750 
72.1540 166.8750 
107.1540 163.8750 
注意 调用 时 要 将 需要 配 准 的 图 像 作 为 第 一 个 参数 ， 将 基准 图 像 作 为 
后 一 个 参数 。 还 有 一 点 就 是 cpselect 只 接受 灰 度 图 像 ， 如 果 需 要 处 理 
RGB 彩 色 图 人像， 可 以 只 给 cpselect 函 数 传递 图 像 的 一 个 层 。 
>>cpselect( Irgb(:,:,1), Ibase); % 只 传递 输入 图 像 的 红色 分 量 
单 击 交 互 工 具 File 沫 单 下 的 Save Points to Workspace 选 项 ， 可 以 将 之 
前 选择 的 基准 点 对 保存 至 工作 空间 。 默 认 情 况 下 ， 输 入 图 像 中 的 基准 点 
保存 在 变量 input_points 中 ， 基 ; 准 图 像 的 基准 点 保存 在 变量 base_points 
中 。 








(3) 指定 要 使 用 的 变换 类 型 。 

根据 之 前 得 到 的 控制 点 对 坐标 input_points 和 base_points， 利 用 
cp2tform 函 数 可 以 计算 变换 的 参数 。 将 基准 点 对 作为 输入 传递 给 
cp2tform， 选 择 一 种 适当 的 变换 类 型 ，cp2tform 函 数 就 能 够 确定 出 该 类 
型 变换 所 需 的 参数 。 这 实际 上 相当 于 一 种 数据 拟 合 ，cp2tform 函 数 寻 找 
能 够 拟 合 控制 点 对 的 变换 参数 ， 它 返回 一 个 TFORM 结 构 的 几何 变换 结 
构 ， 其 中 就 包括 了 几何 变换 的 类 型 和 参数 。 

>> tform = cp2tform(input_points, base_points, 'affine"); 9% 仿 射 变 换 模 








型 

参数 "affine' 表 示 选 用 投影 变换 。cpselect 函 数 总 共 支 持 6 种 类 型 的 变 
换 ， 包 括 线性 和 非 线 性 的 ， 以 及 两 种 分 段 变 换 ， 如 表 4.2 所 示 。 实 际 应 
用 中 的 关键 是 要 结合 失真 的 具体 情况 和 变换 需要 选择 合适 的 变换 类 型 。 








表 4.2 变换 类 型 及 其 说 明 











变换 类 型 适用 情况 最 小 控制 点 对 示 例 
当 输入 图 像 中 的 形状 没有 改变 , 但 图 像 经 过 
a 了 平移 、 旋 转 以 及 比例 缩放 等 变换 后 发 生 失 2 对 
真 时 使 用 本 变换 。 变 换 后 直线 仍然 是 直线 ，| 
平行 线 仍 为 平行 的 
-| 一 
当 输 入 图 像 中 的 形状 展示 出 错 效果 使 用 本 ™ 
affine 变换 。 变换 后 直线 仍然 是 直线 , 平行 线 仍 为 | 3 对 
平行 的 ， 但 矩形 变 成 了 平行 四 边 形 
i 当场 景 显得 倾斜 时 使 用 本 变换 ,变换 后 直线 4 对 
l 仍然 为 直线 ， 但 平行 线 不 再 平行 
当 图 像 中 的 对 象 发 生 弯曲 时 使 用 本 变换 . 拟 | 6 对 (二 阶 ) 
, 合 中 选用 的 多 项 式 的 阶 数 越 高 , 拟 合 效果 越 从 
polynomial 10 对 (3 阶 ) 


好 ,但 配 准 后 的 图 像 比 基准 图 像 包含 更 多 的 
曲线 ， 同 时 也 需要 更 多 的 基准 点 对 


15 对 (4 阶 ) 





piecewise linear 


当 图 像 呈 现 出 分 段 变 形 现象 时 使 用 本 变换 


T 


4 对 





lwm 





(4) 根据 变换 结构 对 输入 图 像 进行 变换 ， 完 成 


准 ; 


当 图 像 中 的 变形 具有 局 部 化 特点 ,并 且 分 段 
线性 条 件 不 够 充分 时 考虑 使 用 本 变换 





6 对 (推荐 12 对 ) 





只 
中 
网 
到 
多 
近 
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调用 imtransform 函 数 进 行 变 换 ， 从 而 实现 配 准 ， 函 数 返 回 配 准 后 的 


图 像 如 图 4.20 
>> Iout = 
>> figure 
subplot(1 
subplot(1 


(a) 所 示 。 


imtransform(Iin, tform); 


, 2, 1), imshow(Iout); 
, 2, 2), imshow(Ibase); 
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(a) 采用 仿 射 模型 


Figure 2 
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(b) 采用 投影 模型 


A 图 4.20 配 准 后 的 图 像 


图 4.20 (b) 给 出 了 采用 投影 模型 (调用 cp2tform 时 第 3 个 参数 
为 'projective'〉 的 配 准 效果 ， 同 图 4.20 (a) 相 比 ， 其 4 个 基准 点 的 对 齐 效 
果 更 好 ， 但 输入 图 像 的 变形 也 更 大 一 些 。 





图 像 增强 是 数字 图 像 处 理 相对 简单 却 最 具 亏 术 性 的 领域 之 一 ， 增 强 
的 目的 是 消除 噪声 ， 显 现 那些 被 模糊 了 的 细节 或 简单 地 突出 一 幅 图 像 中 
我 们 感 兴趣 的 特征 。 一 个 简单 例子 是 增强 图 像 的 对 比 度 ， 使 其 看 起 来 更 
加 一 目 了 然 。 应 记 住 ， 增 强 是 图 像 处 理 中 非常 主观 的 领域 ， 它 以 怎样 构 
成 好 的 增强 效果 这 种 人 的 主观 偏好 为 基础 ， 也 正 是 这 一 点 为 其 赋予 了 艺 
术 性 。 这 与 图 像 复原 技术 刚好 相反 ， 图 像 复 原 也 是 改进 图 像 外 貌 的 一 个 
处 理 领 域 ,但 它 是 客观 的 。 

本 章 的 知识 和 技术 热点 

e 空间 域 滤 波 的 基础 知识 

e 相关 和 卷 积 

e 图 像 平 滑 ， 包 括 平 均 平滑 和 高 斯 平滑 

e 中 值 滤 波及 其 改进 算法 

e 图 像 锐 化 ， 包 括 梯度 算 子 、 拉 普 拉 斯 算 子 、 高 提升 滤波 和 局 斯 - 拉 
普 拉 斯 变换 

本 章 的 典型 案例 分 析 

e 对 椒盐 噪声 的 平滑 效果 比较 

eLaplacian 与 LoG 算 子 的 锐 化 效果 比较 























图 像 增强 是 指 根据 特定 的 需要 突出 一 幅 图 像 中 的 茶 些 信 息 ， 同 时 前 
弱 或 去 除 茶 些 不 需要 的 信息 的 处 理 方法 。 其 主要 目的 是 使 处 理 后 的 图 像 


对 茶 种 特定 的 应 用 来 说 ， 比 原始 图 像 更 适用 。 因 此 ， 这 类 处 理 是 为 了 某 
种 应 用 目的 而 去 改善 图 像 质 量 的 。 处 理 的 结果 使 图 像 更 适合 于 人 的 观察 
或 机 器 的 识别 系统 。 

应 该 明确 的 是 增强 处 理 并 不 能 增强 原始 图 像 的 信息 ， 其 结果 只 能 增 
强 对 某 种 信息 的 辨别 能 力 ， 而 同时 这 种 处 理 有 可 能 损失 一 些 其 他 信息 。 
正 因 如 此 我 们 很 难 找到 一 个 评价 图 像 增强 效果 优 劣 的 客观 标准 ， 也 就 没 
有 特别 通用 模式 化 的 图 像 增强 方法 ， 总 是 要 我 们 根据 具体 期 望 的 处 理 效 
果 做 出 取舍 。 





5.1.2 图 像 增 强 的 分 类 





图 像 增强 技术 基本 上 可 分 成 两 大 类 : 一 类 是 空间 域 增强 ， 一 类 是 频 
率 域 增强 。 本 章 独 重 介绍 空间 域 增强 技术 ， 下 一 章 讲 述 频率 域 图 像 增 
强 。 

空间 域 图 像 增强 与 频率 域 图 像 增强 不 是 两 种 截然 不 同 的 图 像 增强 技 
术 ， 实 际 上 在 相当 程度 上 说 ， 它 们 是 在 不 同 的 领域 做 同样 的 事情 ， 是 殊 
途 同 归 的 ， 只 是 有 些 滤波 更 适合 在 空间 域 完成 ， 而 有 些 则 更 适合 在 频率 
域 中 完成 。 

空间 域 图 像 增强 技术 主要 包括 直方 图 修正 、 灰 度 变 换 增强 、 图 像 平 
请 化 以 及 图 像 锐 化 等 。 在 增强 过 程 中 可 以 采用 单一 方法 处 理 ， 但 更 多 实 
际 情况 是 需要 采用 几 种 方法 联合 处 理 ， 才 能 达到 预期 的 增强 效果 (永远 
不 要 指望 某 个 单一 的 图 像 处 理 方法 可 以 解决 全 部 问题 ) 。 

在 第 3 章 中 通过 灰 度 变换 改善 图 像 外 观 的 方法 ， 以 及 3.7、3.8 市 中 的 
直方 图 灰 度 修正 技术 〈 即 直方 图 均衡 化 和 直方 图 规定 化 都 是 图 像 增 强 
的 有 效 手 段 ， 这 些 方法 的 共同 点 是 变换 是 直接 针对 像素 灰 度 值 的 ， 与 该 
像素 所 处 的 邻 域 无 天 ， 而 空间 域 增强 则 是 基于 图 像 中 每 一 个 小 范围 ( 邻 
域内 的 像 系 进行 灰 度 变换 运算 ， 录 个 点 变换 之 后 的 灰 度 由 该 点 邻 域 之 
































内 的 那些 点 的 灰 度 值 共同 决定 ， 因 此 空间 域 增强 也 称 为 邻 域 运算 或 邻 域 
滤波 。 空 间 域 变换 可 使 用 下 式 描 述 。 





2(x, y) = TI/(x, »)] ($5-1) 








滤波 是 信号 处 理 中 的 一 个 概念 ， 是 将 信号 中 特定 波段 频率 滤 除 的 操 
作 ， 在 数字 信号 处 理 中 通常 采用 傅立叶 变换 及 其 逆 变 换 实现 。 由 于 下 面 
要 学 习 的 内 容 实 际 上 和 通过 傅立叶 变换 实现 的 频 域 下 的 滤波 是 等 效 的 ， 
故而 也 称 为 滤波 。 空 间 域 滤波 主要 直接 基于 邻 域 ( 空 间 域 〉 对 图 像 中 像 
素 执行 计算 ， 我 们 使 用 空间 域 滤波 这 一 术语 区 别 于 第 6 音 中 将 要 讨论 的 
频率 域 滤波 。 





0 令 域 处 理 





对 图 像 中 的 每 一 点 (x，y) ， 重 复 下 面 的 操作 。 

(1) 对 预先 定义 的 以 (x，y) 为 中 心 的 邻 域内 的 像素 进行 运算 。 

(2) 将 (2) 中 运算 的 结果 作为 〈《xX，y) 点 新 的 啊 应 。 

上 述 过 程 就 称 为 邻 域 处 理 或 空间 域 滤 波 。 一 幅 数 字 图 像 可 以 看 成 一 
个 二 维 函数 f(x, y)， 而 x-y 平 而 表明 了 空间 位 置信 息 ， 称 为 空间 域 ， 基 
于 x-y 空 间 邻 域 的 滤波 操作 叫 作 空间 域 滤波 。 如 宁 对 于 邻 域 中 的 像素 计 
算 为 线性 运算 ， 则 又 称 为 线性 空间 域 滤 波 ， 人 否则 称 为 非 线性 空间 域 滤 
波 。 

图 5.1 直观 地 展示 了 用 一 个 3x3 的 模板 〈 又 称 为 滤波 器 、 模 板 、 掩 
模 、 核 或 者 窗口 ) 进行 空间 滤波 的 过 程 ， 模 板 w 中 ， 用 黑 笔 圈 出 的 是 其 
中 心 。 

滤波 过 程 就 是 在 图 像 fx，y) 中 逐 点 地 移动 模板 ， 使 模板 中 心 和 点 














CX，y) 重合 ， 在 每 一 点 (x,，y) 处 滤波 器 在 该 点 的 啊 应 根据 模板 的 有 具 
体内 容 并 通过 预先 定义 的 关系 来 计算 ， 一 般 来 说 模板 中 的 非 0 元 素 指出 
邻 域 处 理 的 范围 ， 只 有 那些 当 模 板 中 心 与 点 〈X，y) 重合 时 ， 图 像 f 
中 和 模板 中 非 0 像素 重合 的 像素 参与 了 决定 操 〈X，y) 像素 值 的 操作 ， 

在 线性 空间 滤波 中 模板 的 系数 则 给 出 了 一 种 加 权 模 式 ， 即 〈x，y) 处 的 
啊 应 由 模板 系数 与 模板 下 面 区 域 的 相应 f 的 像素 值 的 乘积 之 和 给 出 。 例 
如 ， 对 于 图 5.1 而 言 ， 此 刻 对 于 模板 的 啊 应 R 为 


= w(-1l, -1)Ax-1, y-1) + w(-1l, O)fAx-1l, y) + ... + 
w(O, O)flx, ID) + ... + wl, OH y) + w(l, 1)Axt+l, y+1) 


更 一 般 的 情况 ， 对 于 一 个 大 小 为 mxn 的 模板 ， 其 中 m=2a+1， 
n=2b+1，a、b 均 为 正 整 数 ， 即 模板 长 与 宽 均 为 基数 ， 且 可 能 的 最 小 尺寸 
为 3x3【〔 偶 数 尺 寸 的 模板 由 于 其 不 具有 对 称 性 因而 很 少 被 使 用 ， 而 1x1 
大 小 的 模板 的 操作 不 考虑 邻 域 信息 ， 退 化 为 图 像 点 运算 ) ， 可 以 将 滤波 
操作 形式 化 的 表示 为 








a b 
g(x,y) = > 区 w(s,t)f (x+s,y+7t) ($5-2) 


s=~a1=-b 


生 图 像 原 点 










和 wm|wm > 


pn De 


此 时 模板 下 的 图 像 灰 度 

















A 图 5.1 空间 滤波 示意 


对 于 大 小 为 MxN 的 图 像 f0..M-1, 0..N-1)， 对 x=0,1,2,...,M-1 和 y 
= 0,1,2,.….,N-1 依 次 应 用 公式 ， 从 而 完成 了 对 于 图 像 f 所 有 像素 的 处 理 ， 


得 到 新 的 图 像 g。 
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执行 滤波 操作 要 注意 的 一 点 是 当 模 板 位 于 图 像 边缘 时 ， 模 板 的 某 些 
元 素 很 可 能 会 位 于 图 像 之 外 的 情况 ， 这 时 需要 对 于 在 边缘 附近 执行 滤波 
操作 单独 处 理 ， 以 避免 引用 到 本 不 属于 图 像 的 无 意义 的 值 《 在 Matlab 中 
这 将 引起 系统 的 警告 ， 而 在 VC 中 很 可 能 会 由 于 非法 访问 内 存 而 产生 运 
行 错 误 ) 。 

以 下 3 种 策略 都 可 以 用 来 解决 边界 问题 。 

(1) 收缩 处 理 范围 。 处 理 时 忽略 位 于 图 像 f 边 界 附近 会 引起 问题 的 
那些 点 ， 如 对 于 图 5.1 中 所 使 用 的 模板 ， 处 理 时 忽略 图 像 f 四 周一 圈 1 个 
像素 宽 的 边界 ， 即 只 处 理 从 x= 1,2,3,..,M-2 和 yy = 1,2,3,...N-2 (在 
Matlab 中 应 为 x= 2,3,4,...,M-1 和 y= 2,3,4,...N-1) 范围 内 的 点 ， 从 而 确 
保 了 滤波 过 程 中 模板 始终 不 会 超出 图 像 f 的 边界 。 

(2) 使 用 常数 填充 图 像 。 根 据 模板 形状 为 图 像 f 虚 拟 出 边界 ， 虚 拟 
边界 像素 值 为 指定 的 常数 ， 如 0， 得 到 虚拟 图 像 f'。 保 证 模板 在 移动 过 
程 中 始终 不 会 超出 f' 的 边界 。 

(3) 使 用 复制 像素 的 方法 填充 图 像 。 和 2) 基本 相同 ， 只 是 用 来 
填充 虚拟 边界 像素 值 的 不 是 固定 的 常数 ， 而 是 复制 图 像 { 本 身边 界 的 模 
二 

这 些 技巧 在 本 章 后 面 的 小 节 程 序 设计 实例 中 将 给 出 具体 实现 。 





5.2.3 相关 和 着 积 


除了 5.4.1 小 节 给 出 的 滤波 过 程 外 还 有 一 种 称 为 卷 积 的 滤波 过 程 。 
5.4.1 中 给 出 的 滤波 公 陈 实际 上 是 一 种 相关 ， 而 卷 积 的 形式 化 表示 略 有 不 
同 。 


人 b 


g(x;y) = > > w(—s,—t)f (x+s,y+7) (S$-3) 


s=~at=-b 





尽管 差别 细微 ， 但 有 本 质 不 同 ， 卷 积 时 模板 是 相对 其 中 心 点 做 镜像 
后 再 对 f 位 于 模板 下 的 子 图 像 做 加 权 和 的 ， 或 者 说 在 做 加 权 和 之 前 模板 
先 要 以 其 中 心 点 为 原点 旋转 180"。 如 果 忽 略 了 这 一 细微 兰 别 将 导致 完全 




















普 误 的 结果 ， 只 有 妆 模 板 本 里 是 关于 中 心 点 对 称 时 相关 和 卷 积 的 结果 才 
会 相同 。 





Matlab 中 与 滤波 相关 的 函数 主要 有 imfilter 和 fspecial。Imfilter 完 成 滤 
波 操 作 ， 而 fspecial 可 以 为 我 们 创建 一 些 预定 义 的 二 维 滤波 上 器， 直接 供 
imfilter 函 数 使 用 。 

1. 滤波 函数 imfilter 的 原型 如 下 。 

g = imfilter(f,w,option1,option2,...) 

参数 说 明 

e f 是 要 进行 滤波 操作 的 图 像 。 

e w 是 滤波 操作 所 使 用 的 模板 ， 为 一 个 二 维 数组 。 

e option1, option2, ... 是 可 选项 ， 有 具体 可 以 包括 以 下 选项 。 

(1) 边界 选项 : 主要 针对 5.2.2 小 节 中 提 到 的 边界 处 理 问 题 ， 如 表 

5.1 所 示 。 








表 5.1 
合法 值 含 义 
XX (X 代 表 一 个 具体 的 数字 ) 用 固定 数值 关 填 充 虚 拟 边界 ， 上 默认 情况 是 用 0 填充 
'symmetric' 填充 虚拟 边界 的 内 容 通 过 对 靠近 原 图 像 边缘 像素 相对 于 原 图 像 边缘 做 镜像 得 到 
'replicate' 填充 虚拟 边界 的 内 容 总 是 重复 与 它 最 近 的 边缘 像素 
'eircular' 认为 原 图 像 模式 具有 周期 性 ， 从 而 周期 性 地 填充 虚拟 边界 的 内 容 





采用 第 一 种 方式 固定 值 填 充 虚 拟 边界 的 问题 是 在 边缘 附近 会 产生 梯 
度 ， 采 用 后 面 三 种 方式 填充 可 让 边缘 显得 平滑 。 

(2) 尺寸 选项 : 由 于 滤波 中 填充 了 边界 ， 有 必要 指定 输出 图 像 g 的 
大 小 ， 如 表 5.2 所 示 。 

















表 5.2 
合法 值 全 义 
'Same' 输出 图 像 g 与 输入 图 像 了 尺寸 相同 
‘full' 输出 图 像 g 的 尺寸 为 填充 虚拟 边界 后 的 图 象 户 的 尺寸 ， 因 而 大 于 输入 图 像 的 尺寸 
(3) 模式 选项 : 指明 滤波 过 程 是 相关 还 是 卷 积 ， 如 表 5.3 所 示 。 
表 5.3 
合法 值 全 义 
'corr 滤波 过 程 为 相关 
'conv' 滤波 过 程 为 卷 积 
返回 值 
e g 为 滤波 后 的 输出 图 像 。 
111 
w= 1/9*|111 
[ 例 5.1] 读 入 灰 度 图 像 f=cameraman.tif， 用 模板 ll1) 对 f 


进行 相关 滤波 ， 采 用 重复 的 边界 填充 方式 。 
>> f= imread('../fatBaby.bmp); % 读 入 图 像 
>> imshow(f); % 得 到 图 5.2 (a) 的 图 像 
>>w= [111;111;111]/9% 滤 波 模 板 
es 
0.1111 0.1111 0.1111 


0.1111 0.1111 0.1111 

0.1111 0.1111 0.1111 
>> g = imfilter(f, w, 'corr', 'replicate'); % 滤 波 
>> figure, imshow(g); % 得 到 5.2 (b) 的 图 像 
运行 结果 如 图 5.2 所 示 。 





4 的 4 Ro 6 
ihe 也 有 全 下 


(a) 滤波 前 图 像 fatBaby.bmp (b) 图 像 (a) 经 滤波 后 的 图 像 


4 图 5.2 相关 滤波 前 后 对 比 


2. 可 创建 预定 义 的 二 维 滤波 器 的 fspecial 函 数 的 常见 调用 格式 为 : 

h = fspecial(type,parameters) 

参数 说 明 

e 参数 type 指 定 了 滤波 器 的 类 型 ， 其 中 一 些 类 型 的 滤波 融 将 在 5.3 和 
5.4 中 介绍 ， 有 些 则 将 放 到 第 11 章 的 图 像 分 割 中 ， 作 为 边缘 检测 的 算 
子 。type 的 一 些 合法 值 如 表 5.4 所 示 。 





表 5.4 


合法 取 值 功能 描述 

















'average' 平均 模板 

'disk’ 圆 形 邻 域 的 平均 模板 
'gaussian' 高 斯 模板 

"laplacian' 拉 普 拉 斯 模板 

"log' 高 斯 - 拉 普 拉 斯 模板 
‘prewitt' Prewitt 水 平 边 缘 检 测算 子 
'sobel' Sobel 水 平 边缘 检测 算 子 


e 可 选 输入 parameters 是 和 所 选 定 的 滤波 器 类 型 type 相 关 的 配置 参 
数 ， 如 尺寸 和 标准 差 等 。 如 果 不 提供 ， 则 函数 使 用 该 类 型 的 默认 参数 配 
置 。 

返回 值 

e 返回 值 h 为 特定 的 滤波 器 。 

下 面 结合 一 些 代 表 性 的 情况 具体 说 明 。 

(1) h= fspecial('average',hsize) 返 回 一 个 大 小 为 hsize 的 平均 模板 滤 
波 器 h。 参 数 hsize 可 以 是 一 个 含有 2 个 分 量 的 同 量 ， 指 明 h 的 行 和 列 的 数 
目 ; 也 可 以 仅 为 一 个 正 整 数 ， 此 时 对 应 于 模板 为 方 阵 的 情况 。hsize 的 默 
认 值 为 [3 3]。 

(2) h = fspecial(disk',radius) 返 回 一 个 半径 为 radius 的 圆 形 平均 模 
板 ，h 是 一 个 (2radius+1)*( 2radius+1) 的 方 阵 。 半 径 radius 的 默认 值 为 
Do 





(3) h = fspecial(gaussian',hsize,sigma) 返 回 一 个 大 小 为 hsize， 标 准 
差 o=sigma 的 高 斯 低 通 滤波 器 。hsize 的 默认 值 为 [3 3]，sigma 的 默认 值 为 
0.5。 
(4) h = fspecial('sobel") 返 回 一 个 加 强 水 平 边缘 的 竖 直 梯度 算 子 。 
h=[1 2 1 
0 0 0 
二 | 二 二 路] 


如 果 需 要 检测 竖 直 边缘 ， 则 使 用 h 。 


5.3 平 请 


图 像 平滑 是 一 种 可 以 减少 和 抑制 图 像 噪声 的 实用 数字 图 像 处 理 技 
术 。 在 空间 域 中 一 般 可 以 采用 邻 域 平均 来 达到 平 请 的 目的 。 


5.3.1 平均 模板 及 其 实现 


从 图 5.2 洲 波 前 后 效果 对 比 可 以 看 出 滤波 后 的 图 g 有 平滑 或 者 说 模糊 
的 效果 ， 这 完全 是 模板 w 作 用 的 结果 。 例 5.1 中 的 w 提 供 了 一 种 平均 的 加 
权 模 式 ， 首 先 在 以 点 《x，y) 为 中 心 3x3 邻 域内 的 点 都 参与 了 决定 在 新 
图 像 g 中 〈x，y) 点 像素 值 的 运算 ;， 而且 所 有 系数 都 为 1， 表 示 它 们 在 参 
与 决定 g CX，y) 值 的 过 程 中 贡献 〈 权 重 ) 都 相同 ， 最 后 前 面 的 系数 是 
要 保证 整个 模板 元 素 和 为 1， 这 里 应 为 19， 这 样 就 能 让 新 疼 像 同 原 始 图 
像 保持 在 一 个 灰 度 范围 中 《如 [0，255]) 。 

这 样 的 w 叫做 平均 模板 ， 是 用 于 图 像 平 请 的 模板 中 的 一 种 ， 相 当 
于 一 种 局 部 平均 。 更 一 般 的 平均 模板 为 























9 
11 
] 


w = | (5-4) 
(2K+1)° |. 





用 本 


{2K+1)xf(2K+]) 


1. 工作 原理 
一 般 来 说 ， 图 像 具 有 局 部 连续 性 质 ， 即 相 邻 像素 的 数值 相近 ， 而 噪 





声 的 存在 使 得 在 噪声 点 处 产生 灰 度 跳跃 ， 但 一 般 我 们 可 以 合理 地 假设 偶 
和 尔 出 现 的 噪声 影响 并 没有 改变 图 像 局 部 连续 的 性 质 ， 例 如 下 面 的 局 部 疼 
像 E_ sub， 灰色 底 纹 标识 的 为 噪声 点 ， 在 岁 像 中 表现 为 亮 区 中 的 2 个 瞳 

扩 。 








f sub= 
200 215 212 208 196 
198 WW 202 199 221 
199 207 202 201 211l 
203 218 210 210 198 
203 218 210 Wa 198 
2 ZS B22, 208 203 


对 {f 用 3x3 的 平均 模板 进行 平滑 滤波 后 ， 得 到 的 平 请 后 图 像 g_sub 为 


8& Sub = 
181 184 186 206 205 
180 182 183 206 207 
181 183 184 206 208 
206 208 186 182 181 
207 210 189 183 180 
206 209 189 184 181 








显然 ， 通 过 平滑 滤波 原 局 部 图 像 f_sub 中 噪声 点 的 灰 度 值得 到 了 有 
效 修 正 ， 像 这 样 将 每 一 个 点 用 周围 点 的 平均 替代 从 而 达到 减少 噪声 影响 
的 过 程 就 称 为 平滑 或 模糊 。 

2. Matlab 实 现 

利用 imfilter 和 fspecial， 并 以 不 同 尺寸 的 平均 模板 实现 平均 平滑 的 
Matlab 示 例 代 码 如 例 5.2 所 示 。 





[ 例 5.2] 不 同 尺寸 平均 模板 的 平均 平滑 效 末 。 
[= imread('‘baby_noise.bmp'); 
>> figure, imshow(]) % 得 到 图 5.3 〈a) 中 的 图 像 
>> h = fspecial('average', 3); % 3*3 平 均 模 板 
>> I3 = imfilter(], h, 'corr', 'replicate"); % 相关 滤波 ， 重 复 填 充 边 界 
>> figure, imnshow(I3) % 得 到 图 5.3 (b) 中 的 图 像 
>> h = fspecial('average', 5) % 5*5 平 均 模 板 
h = 
0.0400 0.0400 0.0400 0.0400 0.0400 
0.0400 0.0400 0.0400 0.0400 0.0400 
0.0400 0.0400 0.0400 0.0400 0.0400 
0.0400 0.0400 0.0400 0.0400 0.0400 
0.0400 0.0400 0.0400 0.0400 0.0400 
>> I5 = imtfilter(], h, 'corr', 'replicate'); 
>> figure, imshow(I5) 9% 得 到 图 5.3《c) 中 的 图 像 
>> h = fspecial('average', 7); % 7*7 平 均 模 板 
>> 17 = imtfilter(], h, 'corr', 'replicate'); 
>> figure, imshow(I7) % 得 到 图 5.3(d〉 中 的 图 像 
上 述 程序 的 运行 效果 如 图 5.3 所 示 ， 可 以 看 出 随 着 模板 的 增 大 ， 滤 
波 过 程 在 平滑 掉 更 多 的 噪声 的 同时 也 使 得 图 像 变 得 越 来 越 模糊 ， 这 是 由 
平均 模板 的 工作 机 理 所 决 定 的 。 当 模板 增 大 到 7x7 时 ， 图 像 中 的 某 些 细 
节 ， 如 衣服 上 的 裙 皱 已 经 难以 辨识 了 ， 纽 扣 也 变 得 相当 模糊 。 实 际 上 ， 
当 图 像 细 节 与 滤波 器 模板 大 小 相近 时 就 会 受到 比较 大 的 影响 ， 尤 其 当 它 
们 的 灰 度 值 又 比较 接近 时 ， 混 合 效应 导致 的 图 像 模 糊 会 更 明显 。 随 着 模 
板 的 进一步 增 大 ， 像 纽扣 这 样 的 细节 都 会 被 当 作 噪声 平滑 掉 。 因 此 ， 我 
们 在 确定 模板 尺寸 时 应 考虑 好 要 波 除 的 噪声 点 的 大 小 ， 有 针对 性 地 进行 








(c) 图 (a) 经 5X5 的 平均 模板 滤波 (d) 图 (a) 经 7X7 的 平均 模板 滤波 


4 图 5.3 不 同 大 小 的 平均 模板 的 平滑 效果 。 





1. 理论 基础 





平均 平滑 对 于 邻 域内 的 像素 一 视 同 仁 ， 为 了 减少 平滑 处 理 中 的 模 
糊 ， 得 到 更 目 然 的 平 请 效果 ， 很 目 然 地 想到 适当 加 大 模板 中 心 点 的 权 
重 ， 随 着 远离 中 心 点 ， 权 重 迅速 减 小 ， 从 而 可 以 确保 中 心 点 看 起 来 更 接 
近 于 与 它 距离 更 近 的 点 ， 基 于 这 样 的 考虑 得 到 的 模板 即 为 高 斯 模板 。 

常用 的 3x3 的 高 斯 模板 如 下 所 示 。 


1 名 
w= 1/l6x|242 ($5-5) 
上 几 : 二 





局 斯 模板 名 字 的 由 来 是 二 维 高 斯 函数 ， 即 我 们 熟悉 的 二 维 正 态 分 布 
密度 函数 ， 回 忆 一 下 ， 一 个 均值 为 0， 方 差 为 “的 二 维 高 斯 函数 为 
Ce 上 WY 


i (5-6) 
RO 2 





p(X, ») = 


图 5.4 给 出 了 o=1 时 二 维 高 斯 函数 的 三 维 示 意图 形 。 

高 斯 模板 正 是 将 连续 的 二 维 高 斯 函数 的 离散 化 表示 ， 因 此 任意 大 小 
的 高 斯 模板 都 可 以 通过 建立 一 个 (2k+1) x (2k+1) 的 矩阵 M 得 到 ， 其 
(i,，j) 位 置 的 元 素 值 可 由 下 式 确 定 。 








四 


(i—-k-l) +(j-k-1)’) 











M (i, i) = 一 EX 一 一 一 一 一 一 一 ) ($5-7) 
2 2 地 
J 
吉村 
WA 人 
2 ww P(X) = E i a 
A 图 5.4 二 维 高 斯 函数 2rc 2 取 a=1 时 的 三 维 示意 


e 0 选择 的 小 技巧 





当 标准 差 a 取 不 同 的 值 时 ， 二 维 高 斯 函数 的 形状 会 有 很 大 的 变化 ， 
因而 在 实际 应 用 中 选择 合适 的 o 值 非常 重要 : 如 果 o 过 小 ， 偏 离 中 心 的 所 
有 像素 权重 将 会 非常 小 ， 相 当 于 加 权 和 响应 基本 不 考虑 邻 域 像 素 的 作 
用 ， 这 样 滤波 操作 退化 为 图 像 的 点 运算 ， 无 法 起 到 平滑 噪声 的 作用 ;， 相 
反 如 果 a 过 大 ， 而 邻 域 相 对 较 小 ， 这 样 在 邻 域内 高 斯 模板 将 退化 为 平均 
模板 : 只 有 当 a 取 合适 的 值 时 才能 得 到 一 个 像素 值 的 较 好 估计 。Matlab 
中 o 的 默认 值 为 0.5， 在 实际 应 用 中 ， 通 常 对 3x3 的 模板 取 o 为 0.8 左 右 ， 
对 于 更 大 的 模板 可 以 适当 增 大 o 的 值 。 

2. Matlab 实 现 

采用 不 同 的 oc 实现 高 斯 平滑 的 Matlab 代 人 码 如 例 5.3 所 示 。 

[ 例 5.3] 不 同 的 5 实现 高 斯 平滑 效果 比较 。 

>> 工 = imread('baby_noise.bmp’); 

>> figure, imshow(D; % 得 到 图 5.5 〈a) 中 的 图 像 

> 

>> h3_5 = fspecial('gaussian', 3, 0.5); % sigma=0.5 的 3*3 高 斯 模板 

>> 13_5 = imfilter(], h3_5); % 高 斯 平滑 

>> figure, imshow(I3_5); % 得 到 图 5.5 (b〉 中 的 图 像 

> 

>> h3_8 = fspecial('gaussian', 3, 0.8); % sigma=0.8 的 3*3 高 斯 模板 

>> I3_8 = imfilter(], h3_ 8); 

>> figure, imshow(I3_8); % 得 到 图 5.5〈c) 中 的 图 像 

> 

>> h3_18 = fspecial('gaussian', 3, 1.8) % sigma=1.8 的 3*3 高 斯 模板 ， 
接近 于 平均 模板 

h3_18 = 

0.0997 0.1163 0.0997 
0.1163 0.1358 0.1163 























0.0997$ 0.1163 0.0997 

>> I3_18 = imtfilter(], h3_18); 

>> figure, imshow(I3_18); % 得 到 图 5.5(d〉 中 的 图 像 

>> 

>> h5_8 = fspecial('gaussian', 5, 0.8); 

>> I5_8 = imfilter(l, h5_ 8); 

>> figure, imshow(15_8); % 得 到 图 5.5 (e〉 中 的 图 像 

>> imwrite(I5_8, 'baby5_ 8.bmp)’); 

>> 

>> h7_12 = fspecial(‘gaussian’, 7, 1.2); 

>> I17_12 = imtfilter(], h7_12); 

>> figure, imshow(17_12); % 得 到 图 5.5 〈f) 中 的 图 像 

>> imwrite(17_12, baby7_12.bmp); 

上 述 程序 的 运行 结果 如 图 5.5 所 示 。 图 5.5(b》〉 中 的 图 像 由 于 o 偏 小 
而 平滑 效果 不 明显 ; 当 c 增 大 至 1.8 时 ， 图 5.5〈d) 中 的 高 斯 平滑 效果 类 
似 于 图 5.3 中 图 5.5 〈b) 的 平均 平 谓 效果 。 随 着 模板 的 增 大 ， 原 疼 中 的 品 
声 得 到 了 更 好 的 抑制 ， 比 较 图 55 (f)》 和 5.3 图 5.5 (d) 中 的 图 像 ， 我 们 
注意 到 同样 在 大 小 为 7x7 的 情况 下 ， 融 斯 滤波 后 的 图 像 中 图 像 细 被 较 
好 地 保留 。 











(c) 经 3X3，a=0.8 的 高 斯 模板 滤波 (d) 经 3X3，a=0.8 的 高 斯 模板 滤波 





(e) 经 5X5，o =0.8 的 高 斯 模板 滤波 (f) 经 7X7，o =1.2 的 高 斯 模板 滤波 





4 图 5.5 不 同 大 小 的 高 斯 模板 的 平滑 效果 


上 面 介 绍 的 平均 平滑 滤波 器 和 遍 斯 平滑 滤波 器 都 是 线性 平 请 滤波 
器 ， 在 学 习 频 率 域 滤波 之 后 ， 还 可 以 为 它们 赋予 妃 外 一 个 名 字 一 一 低 通 
滤波 器。 








利用 平均 模板 的 平滑 在 消除 噪声 的 同时 也 使 图 像 变 得 模糊 ， 高 斯 平 
滑 在 一 定 程 度 上 缓解 了 这 些 现 象 ， 但 由 平滑 滤波 机 理 可 知 这 种 模糊 是 不 
可 避免 的 。 这 当然 是 我 们 所 不 希望 的 ， 于 是 想到 选择 性 地 进行 平滑 ， 即 
只 在 噪声 局 部 区 域 进 行 平滑 ， 而 在 无 噪声 局 部 区 域 不 进行 平滑 ， 将 模糊 
的 影响 降 到 最 少 ， 这 就 是 自 适 应 滤波 的 思想 。 

那么 怎样 判断 该 局 部 区 域 是 包含 噪声 的 需要 平滑 的 区 域 还 是 无 明显 
噪声 的 不 需 平 滑 的 区 域 呢 ? 这 要 基于 噪声 的 性 质 来 考虑 ，5.3.1 小 节 讨 
论 了 图 像 的 局 部 连续 性 质 ， 噪 声 的 存在 会 使 得 在 噪声 点 处 产生 灰 度 跳 
跃 ， 从 而 使 噪声 点 局 部 区 域 灰 度 跨度 较 大 。 因 此 可 以 选择 如 下 2 个 标准 
中 的 1 个 作为 局 部 区 域 存在 噪声 的 判 据 。 

(1) 局 部 区 域 最 大 值 与 最 小 值 之 差 大 于 某 一 阔 值 T， 即 max(R)- 
min(R)>T， 其 中 R 代 表 该 局 部 区 域 。 

(2) 局 部 区 域 方差 大 于 某 一 闵 值 T， 即 D(R)>T，D(R) 表 示 区 域 R 中 
像素 的 方差 。 

自 适应 滤波 算法 的 实现 逻辑 如 算法 5.1 所 示 。 

算法 5.1 



































逐 行 扫描 图 像 ; 
对 每 一 个 像 系 ， 以 该 像素 作为 中 心 ， 计 算 其 周围 区 域 R 的 统计 特 
征 ， 如 最 大 值 、 最 小 值 和 方差 等 ; 
如 果 区 域 R 的 特征 满足 选 定 的 噪声 判 据 
根据 选 定 的 模板 计算 邻 域 加 权 和 作为 该 点 的 啊 应 ; 





合 则 
不 处 理 该 点 ; 

对 于 那些 噪声 位 置 具 有 随机 性 和 局 部 性 的 图 像 ， 自 适应 的 滤波 具有 
非常 好 的 效果 。 有 兴趣 的 读者 可 自己 编制 程序 实现 自 适 应 的 高 斯 平滑 算 
法 ， 应 用 于 具有 上 述 特点 的 噪声 图 像 中 ， 并 和 我 们 给 出 的 标准 高 斯 平滑 
效果 进行 比较 。 








5.4 波 y 


中 值 滤 波 本 质 上 是 一 种 统计 排序 滤波 器 。 对 于 原 图 像 中 某 点 (i, 
j) ， 中 值 滤 波 以 该 点 为 中 心 的 邻 域 内 的 所 有 像素 的 统计 排序 中 值 作为 
Gi，j) 点 的 啊 应 。 

中 值 不 同 于 均值 ， 是 指 排序 队列 中 位 于 中 间 位 置 的 元 素 的 值 ， 例 
如 ， 采 用 3x3 中 值 滤 波 器 ， 某 点 i，j) 的 8 个 邻 域 的 一 系列 像素 值 为 
12、18、18、11、23、22、13、25、118， 统 计 排 序 结果 为 11、12、 
13、18、18、22、23、25、118。 排 在 中 间 位 置 〈 第 5 位 ) 的 18 即 作为 
(Gi，j) 点 中 值 滤波 的 响应 gii，iD。 显 然 ， 中 值 滤波 并 非 线 性 滤波 器 。 








5.4.1 性 能 比较 


中 值 滤波 对 于 茶 些 类 型 的 随机 噪声 具有 非常 理想 的 降 品 能力 ， 对 于 
线性 平滑 滤波 而 言 ， 在 处 理 的 像 系 邻 域 之 内 包含 噪声 点 时 ， 噪 声 的 存在 
忆 会 或 多 或 少 地 影响 该 点 的 像素 值 的 计算 ，〈( 对 于 局 斯 平滑 影响 程度 同 
噪声 点 到 中 心 点 的 距离 成 正比 )， 但 在 中 值 小 波 中 品 声 点 则 常常 是 直接 
被 急 略 掉 的 ;而 且 同 线性 平滑 滤波 器 相 比 ， 中 值 滤波 在 降 品 同时 引起 的 
模糊 效应 较 低 。 中 值 沽 波 的 一 种 典型 应 用 是 消除 椒盐 噪声 。 

下 面 首 先 简 单 介 绍 一 下 第 见 的 噪声 模型 ， 接 着 给 出 中 值 滤波 的 











Matlab 实 现 。 
1. 噪声 模型 
Matlab 中 为 图 片 加 噪声 的 语句 是 
J = imnoise(Ltype,parameters ); 
参数 说 明 
e I 为 原 图 像 。 
e 可 选 参数 type 指 定 了 噪声 类 型 ， 常 用 的 噪声 类 型 如 表 5.5 所 示 。 


表 5.5 


合法 取 值 功能 描述 





'gaussian' 高 斯 白 噪声 ， 如 果 一 个 噪声 ， 它 的 幅度 分 布 服 从 高 斯 分 布 ， 则 称 之 为 高 斯 噪声 。 而 如 果 它 的 功 
率 谱 密度 〈 功 率 谱 的 概念 见 第 6 章 ) 又 是 均匀 分 布 的 ， 则 称 它 为 高 斯 白 噪声 

椒盐 噪声 因 其 在 图 像 中 的 表现 形式 而 得 名 ， 如 图 5.6 (b) 是 对 5.6 (a) 中 的 图 像 添 加 了 椒盐 吕 
'salt & pepper 声 后 的 效果 ， 黑 点 如 同 胡 椒 ， 白 点 好 似 盐 粒 。 椒 盐 噪 声 是 由 图 像 传 感 器 ， 传 输 信 道 ， 解 码 处 理 
等 产生 的 黑白 相间 的 亮 瞳 点 噪声 。 椒 盐 噪声 往往 由 图 像 切割 引起 





返回 值 

e J 为 添加 了 噪声 后 的 图 像 。 

提示 

使 用 imnoise (gaussianm’, m, v) 添加 高 斯 噪声 时 ， 相 当 于 对 原 图 像 
中 每 一 个 像素 辣 加 一 个 从 均值 为 m、 方 差 为 v 的 高 斯 分 布 产 生 的 随机 样 
本 值 。 当 m=0 时 ， 较 小 的 方差 v 通常 保证 了 高 斯 分 布 有 一 个 较 大 的 概率 
产生 值 在 0 附近 的 随机 样本 (高 斯 分 布 密度 函数 f(x) 在 x=0 附 近 具 有 最 大 
值 ) ， 从 而 在 大 部 分 像素 位 置 对 原 图 像 影响 较 小 。 

2. 中 值 滤 波 的 Matlab 实 现 

Matlab 提 供 了 medfilt2 函 数 实 现 中 值 滤波 ， 原 型 为 

I2 =medfilt2(I1, [mn]); 

参数 说 明 

e [1 是 原 图 矩阵 。 





e mn 是 中 值 滤 波 处 理 的 模板 大 小 ， 默 认 3x3。 
返回 值 
e 得 出 IZ2 是 中 值 滤 波 后 的 图 像 矩阵 。 
[ 例 5.4] 对 椒盐 噪声 的 平滑 效果 比较 
下 面 的 程序 分 别 给 出 了 对 于 一 幅 受 椒盐 噪声 污染 的 图 像 ， 平 均 平 
滑 、 高 斯 平滑 和 中 值 滤波 的 处 理 效果 。 
>> 工 = imread('lena_salt.bmp'); 
>> imshow(D; % 得 到 图 5.6 〈a) 的 图 像 
>> J=imnoise(],'salt & pepper);% 为 图 像 琶 加 椒盐 噪声 
>> figure, imshow(J); % 得 到 图 5.6(b)〉 的 图 像 
>>w= [121; 
2 4 2; 
121]/16; 
>> J1=imfilter(J, w, 'corr', 'replicate"); % 高 斯 平滑 
>> figure, imshow(J1); % 得 到 图 5.6 (c) 的 图 像 
>>w=[111; 
111; 
1111/9; 
>> J2=imfilter(J, w, 'corr', 'replicate");% 平 均 平滑 
>> figure, imshow(J2); % 得 到 图 5.6 (d)〉 的 图 像 
>> J3=medfilt2(J,[3,3]);% 中 值 滤波 
>> figure, imshow(J3); % 得 到 图 5.6 (e) 的 图 像 
程序 运行 结果 如 图 5.6 所 示 ， 从 中 可 见 线性 平滑 滤波 在 降 品 的 同时 
不 可 避免 地 造成 了 模糊 ， 而 中 值 滤 波 在 有 效 抑制 椒盐 噪声 同时 模糊 效应 
明显 低 得 多 ， 因 而 对 于 椒盐 噪声 污染 的 图 像 ， 中 值 滤 波 要 远 远 优 于 线性 
平滑 滤波 。 
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(b) 椒盐 噪声 污染 的 图 像 





(ce) 3x3 高 斯 平滑 效果 (d) 3x3 平均 平滑 效果 





(e) 3x3 中 值 滤波 效果 (f) 改进 的 中 值 滤 波 效果 


A 图 5.6 几 种 滤波 圳 对 于 椒盐 噪声 污染 图 像 的 性 能 比较 
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中 值 滤波 效果 依赖 于 滤波 窗口 的 大 小 ， 太 大 会 使 边 毕 模糊 ， 太 小 了 
则 去 噪 效果 不 好 。 因 为 噪声 点 和 边缘 点 同样 是 灰 度 变化 较为 剧烈 的 像 
素 ， 普 通 中 值 滤波 在 改变 噪声 点 灰 度 值 的 时 候 ， 会 一 定 程度 地 改变 边缘 
像素 灰 度 值 。 但 是 噪声 点 几乎 都 是 邻 域 像 素 的 极 值 ， 而 边缘 往往 不 是 ， 
因此 可 以 利用 这 个 特性 来 限制 中 值 滤波 。 

具体 的 改进 方法 如 下 。 逐 行 扫描 图像， 当 处 理 每 一 个 像素 时 ， 判 断 
该 像 系 是 否 是 滤波 窗口 所 窗 盖 下 令 域 像素 的 极 大 或 者 极 小 值 。 如 果 古 ， 
则 采用 正常 的 中 值 滤波 处 理 该 像 系 ， 如 果 不 是 ， 则 不 予 处 理 。 在 实践 中 
这 种 方法 能 够 非常 有 效 地 去 除 突 发 噪声 点 ， 尤 其 是 椒盐 噪声 ， 而 几乎 不 
影响 边缘 。 

由 于 算法 可 以 根据 局 部 邻 域 的 具体 情况 而 目 行 选择 执行 不 同 的 操 
作 ， 因 此 改进 的 中 值 滤波 也 称 为 自 适 应 中 值 小波。 这 里 将 编制 改进 中 值 
滤波 程序 的 任务 作为 练习 留 给 读者 。 

改进 后 中 值 滤波 的 处 理 效果 如 图 5.6〈f) 所 示 。 对 比 图 5.6 (f) 和 图 
5.6(e) ， 我 们 不 难 发 现 ， 图 5.6〈f) 在 完美 地 滤 除 了 椒盐 噪声 的 同 
时 ， 在 图 像 细节 《如 帽子 的 禧 皱 ) 上 ， 较 图 5.6 〈e) 有 了 更 好 的 保留 ， 
其 他 边缘 也 更 加 清晰 ， 基 本 和 原 图 一 致 。 























与 线性 平滑 滤波 考虑 邻 域 中 每 个 像素 的 作用 不 同 ， 中 值 滤波 在 每 个 
nxn 邻 域内 都 会 忽略 邱 那 些 相 对 于 邻 域内 大 部 分 其 余 像 素 更 完 或 更 蜡 ， 
并 且 所 占 区 域 小 于 像素 总 数 一 半 〈n2/2) 的 像素 的 影响 ， 而 实际 上 满足 





这 样 条 件 被 忽略 挥 的 像 系 往 往 束 是 噪声 。 

注意 

作为 一 种 非 线 性 滤波 ， 中 值 滤波 有 可 能 会 改变 图 像 的 性 质 ， 因 而 一 
般 不 适用 于 像 军事 图 像 处 理 、 医 学 图 像 处 理 等 领域 。 


5.5 饮 化 


图 像 锐 化 的 目的 是 使 模糊 的 图 像 变 得 更 加 清晰 起 来 。 其 应 用 广泛 ， 
从 医学 成 像 到 工业 检测 和 军事 系统 的 制导 等 。 


5.5.1 理论 基础 


图 像 锐 化 主要 用 于 增强 图 像 的 灰 度 跳 变 部 分 ， 这 一 点 与 图 像 平 滑 对 
灰 度 跳 变 的 抑制 正好 相反 ， 事 实 上 从 平滑 与 锐 化 的 两 种 运算 算 于 上 也 能 
说 明 这 一 点 ， 线 性 平滑 都 是 基于 对 图 像 邻 域 的 加 权 求 和 或 者 说 积分 运算 
的 ， 而 锐 化 则 通过 其 逆 运 算 导 数 〈 梯 度 ) 或 者 说 有 限 差 分 来 实现 。 

在 讨论 平滑 的 时 候 我 们 提 到 了 噪声 和 边缘 都 会 使 图 像 产生 灰 度 跳 
变 ， 为 了 在 平滑 时 能 够 将 噪声 和 边缘 区 别 对 符 ， 还 在 5.3.5 中 给 出 了 一 种 
目 适 应 滤波 的 解决 方案 。 同 样 的 ， 在 锐 化 处 理 中 如 何 区 分 开 噪 声 和 边缘 
仍然 是 我 们 要 面临 的 一 个 谍 题 ， 只 是 在 平 谓 中 要 平滑 的 是 噪声 ， 和 希望 处 
理 不 要 涉及 边缘 ， 而 在 锐 化 中 要 锐 化 的 对 象 是 边缘 ， 布 望 处 理 不 要 涉及 

















回忆 一 下 高 等 数学 中 梯度 的 定义 ， 对 于 连续 二 维 函 数 f(x，y)， 其 在 
扩 (x,，y) 处 的 梯度 是 下 面 的 二 维 列 回 量 。 


了 
?|S 


CC 
Ce 
Pe 


< 
~ 
| 
De 
Ep 
| 
[> 
|S 


QQ) | 
二 


AF > 门下 人 》 
gi 


式 中 : Gx e330 E ， 为 在 点 (x，y) 处 f 对 x 的 偏 
导 ; 
Ty i f(x,y+eE)— f(x,y) 
2 p ， 为 在 点 (x，y) 处 f 对 y 的 偏 
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梯度 的 方 同 就 是 函数 fx， 纪 最 大 变化 率 的 方 癌 。 
梯度 的 幅 值 作 为 变化 率 大 小 的 度量 ， 其 值 为 


|Vf(x,y)| = 





对 于 离散 二 维 离散 函数 f 〈i，j) ， 可 以 用 有 限 差分 作为 梯度 幅 值 的 
= 





[VG DENLG+L -FG DY +Lf ,7+D)- fi) 


尽管 梯度 幅 值 和 梯度 两 者 之 间 有 着 本 质 的 区 别 ， 但 在 数字 疼 像 处 理 
中 提 到 梯度 时 ， 往 往 不 加 区 分 ， 即 将 上 式 的 梯度 幅 值 称 为 梯度 。 

上 式 中 包括 平方 和 开 方 ， 不 方便 计算 ， 因 此 可 近似 为 绝对 值 的 形 
式 。 





[VAG, DI=| f+ D-DDI+tI ,I +D-f (0,))| (5-8) 


而 在 实际 使 用 中 ， 经 常 被 采用 的 是 另外 一 种 近似 梯度 一 Robert 交 叉 


梯度 。 
[VA DEAG+tL I+D- fC D+ f+D- fitl,))| (5-9) 


1，Robert 交 叉 梯 度 
Robert 交 叉 梯 度 对 应 的 模板 为 


式 中 : w1 对 接近 +45? 边 缘 有 较 强 响应 ，w2 对 接近 -45" 边 缘 有 较 强 
响应 。 

[ 例 5.5] 基于 Robert 交 叉 梯 度 的 图 像 锐 化 

有 了 前 面 学 习 的 滤波 的 知识 ， 只 要 分 别 以 wl1 和 w2 为 模板 ， 对 原 图 
像 (a) 进行 滤波 就 可 得 到 G1 和 G2， 而 根据 公式 5-9 最 终 的 Robert 交 叉 梯 
度 图 像 (b) 为 








G = |G1| + |G2| 


在 进行 锐 化 滤波 之 前 ， 我 们 要 将 图 像 类 型 从 uint8 转 换 为 double， 这 
是 因为 锐 化 模板 的 负 系 数 弟 第 使 得 输出 产生 负 值 ， 如 果 采 用 无 符号 的 
uint8 型 ， 则 负 值 会 被 截断 。 

在 调用 函数 imfilter 时 ， 还 要 注意 不 要 使 用 默认 的 填充 方式 ， 因 为 
Matlab 默 认 会 在 滤波 时 进行 “0” 填 充 ， 这 会 导致 图 像 在 边界 处 产生 一 个 
人 为 的 灰 度 跳 变 ， 从 而 在 梯度 图 像 中 产生 高 响应 ， 而 这 些 人 为 高 啊 应 值 
的 存在 将 导致 对 图 像 中 真正 的 边缘 和 其 他 我 们 关心 的 细 市 的 响应 在 输出 
梯度 图 像 中 被 压缩 在 一 个 很 符 的 灰 度 范围 ， 同 时 也 影响 显示 的 效果 。 我 
们 这 里 采用 了 replicate 的 重复 填充 方式 ， 也 可 采用 symmetric 的 对 称 填 充 














程序 实现 如 下 。 
>> 工 = imread('bacteria.bmp'); 
>> imshow(D); % 显示 图 5.7(a) 
>> 工 = double(D); % 转换 为 double 型 ， 这 样 可 以 保存 负 值 ， 否 则 uint8 
型 会 把 负 值 截 掉 
>> wl = [-1 0;01] 
wl1 = 
-1 0 
0 1 
>> w2 = [0 -1; 1 0] 
W2 = 
0 -1 
1 0 
>> G1 = imfilter(L Ww1, 'corr', 'replicate"); % 以 重复 方式 填充 边界 
>> G2 = imfilter(l, Ww2, 'corr', 'replicate'); 
>> G = abs(G1) + abs(G2); % 计算 Robert 梯 度 
>> figure, imshow(G, []); % 显示 图 5.7(b) 
>> figure, imshow(abs(G1), []); % 显示 图 5.7(c) 
>> figure, imshow(abs(G2), []); % 显示 图 5.7(d) 
上 述 程 序 的 运行 结果 如 图 5.7 所 示 。 由 于 G1 和 G2 中 都 可 能 有 人 负 值 ， 
图 5.7(c) 和 图 5.7(d) 分 别 是 对 G1 和 G2 取 绝 对 值 后 的 图 像 ， 图 
5.7《〈c) 中 接近 +45° 边 缘 较 明显 ， 而 图 5.7(d)〉 中 则 突显 出 接近 -45° 方 
向 的 边缘 ， 这 与 直接 分 析 w1 和 w2 模 板结 构 得 出 的 结论 是 一 致 的 。 








(c) wl 滤波 后 取 绝 对 值 并 重新 标定 《d) w2 滤波 后 取 绝 对 值 并 重新 标定 
A 图 5.7 Robert 交 叉 梯 度 锐 化 


提示 

为 便于 观察 效果 ， 图 5.7 (b) 、 图 5.7 (c) 、 图 5.7 (d) 都 做 了 显 
示 时 的 重新 标定 ， 即 将 图 像 的 灰 度 范围 线性 变换 到 0 一 255， 并 使 得 图 像 
的 最 小 灰 度 值 为 0， 最 大 灰 度 值 为 255。 在 Matlab 中 只 需 在 用 imshow 函 
数 显 示 图 像 时 加 一 个 参数 [] 即 可 。 

2. Sobel 梯 度 

由 于 滤波 时 我 们 总 是 喜欢 奇数 尺寸 的 模板 ， 因 而 一 种 计算 Sobel 梯 
度 的 Sobel 模 板 更 加 常用 。 











对 竖 直 边 缘 有 较 大 啊 应 的 水 平 梯度 

例 5.6 的 Matlab 程 序 计算 了 一 幅 图 像 的 竖 直 和 水 平 梯度 ， 它 们 的 和 可 
以 作为 完整 的 Sobel 梯 度 。 

[ 例 5.6] 基于 Sobel 梯 度 的 图 像 锐 化 

I = imread('bacteria.bmp'"); % 读 入 原 图 像 

>> wl = fspecial(sobel); % 得 到 水 平 sobel 模 板 


>> wl 
wl1 = 
1 2 1 
0 0 0 
-1 -2 -1 
>> w2 = w1' % 转 置 得 到 竖 直 soble 模 板 
W2 = 
1 0 -1 
2 0 -2 
1 0 -1 


>> G1 = imfilter(l, w1); % 水 平 Sobel 梯 度 


>> G2 = imfilter(], w2); 9% 竖 直 Sobel 梯 度 
>> G = abs(G1) + abs(G2); %Sobel 梯 度 
>> figure, imshow(G1, []) % 得 到 图 5.8 (a) 
>> figure, imshow(G2, []) % 得 到 图 5.8 (b) 
>> imshow(G, []) % 得 到 图 5.8 (c) 
述 程序 运行 后 ， 图 5.7 (a》 所 示 的 Sobel 梯 度 锐 化 效果 如 图 5.8 所 





(a) Sobel 梯度 图 像 (b) wl 滤波 后 取 绝 对 值 并 重新 标定 (c) w2 滤波 后 取 绝 对 值 并 重新 标定 


A 图 5.8 Sobel 梯 度 锐 化 效果 ， 'b) 中 接近 水 平方 向 的 边缘 较 明 显 ， 





(Cc) 中 接近 竖 直 方 同 的 边缘 较 明显 


还 可 以 直接 利用 Matlab 梯 上 度 函 数 gradient 计 算 Sobel 梯 度 ， 程 序 如 


>> 工 = imread(bacteria.bmp ); 

>> imshow(D); 

>> 工 = double(D; % 计算 梯度 之 前 要 转换 为 double 
>> [Gx Gy] = gradient(); % 计算 x,y 方 问 梯 度 

>> G = abs(Gx) + abs(Gy); % 计 算 整 体 梯度 

>> figure, imshow(G); 


>> figure, imshow(G, [D); % 整体 梯度 图 像 





>> figure, imshow(Gx, []); % X 方 问 梯 度 图 像 〈 突 显 俩 竖 直 方 癌 的 边 
缘 ) 

>> figure, imshow(Gy, []); %y 方 回 梯 度 图 像 〈 突 显 偏 水 平方 回 的 边 
缘 ) 

关于 梯度 算 子 更 详细 的 讨论 留 在 第 11 章 边缘 检测 与 网 像 分 割 中 进 





下 面 介 绍 一 种 对 于 图 像 锐 化 而 言 应 用 更 为 广泛 的 基于 二 阶 微分 的 拉 
普 拉 斯 (Laplacian) 算 子 。 

1. 理论 基础 

二 维 函 数 f(x, y) 的 二 阶 微 分 ( 拉 普 拉 斯 算 子 ) 定义 为 








对 于 离散 的 二 维 图 像 fG,j)， 可 以 用 下 式 作为 对 二 阶 仿 微 分 的 近似 。 
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将 上 面 两 式 相 加 就 得 到 用 于 图 像 锐 化 的 拉 普 拉 斯 算 子 。 
V*f=[fG+L +f + f+D+ fj -D4f(, 7) (5-10) 


对 应 的 滤波 模板 如 下 。 


因为 在 锐 化 增强 中 ， 绝 对 值 相同 的 正 值 和 负 值 实际 上 表示 相同 的 啊 
应 ， 故 也 等 同 于 使 用 如 下 的 模板 W2。 


下 
和 


0 -1 0 


W2 = 








分 析 拉 普 拉 斯 模板 的 结构 ， 可 知 这 种 模板 对 于 90° 的 旋转 是 各 问 同 
性 的 ， 所 谓 对 于 茶 角 度 各 辐 同 性 是 指 把 原 图 像 旋 转 该 角度 后 再 进行 沽 肖 
与 先 对 原 图 像 滤波 再 旋转 该 角度 的 结果 相同 。 这 说 明 拉 普 拉 斯 算 子 对 于 
接近 水 平和 接近 竖 下 方 同 的 边缘 都 有 很 好 的 增强 ， 从 而 也 束 避 免 我们 在 
使 用 梯度 算 子 时 要 进行 两 次 滤波 的 麻烦 。 更 进一步 ， 我 们 还 可 以 得 到 如 
下 对 于 45? 旋 转 各 回 同 性 的 滤波 融 。 














1 1 | -] -1 -l] 


3=|l1 -8 1| 和 WW=|1-1 8 -1 
tt 让 1 x 





沿用 高 斯 平滑 模板 的 思想 ， 根 据 到 中 心 点 的 距离 给 模板 周边 的 点 赋 
了 予 不 同 的 权重 ， 还 可 得 到 如 下 的 模板 W5。 


EE 
WS 吉 | 水 =20 六 


1 4 ] 


2. Matlab 实 现 
分 别 使 用 上 述 的 3 种 拉 普 拉 斯 模板 的 Matlab 滤 波 程 序 如 例 5.7 所 示 。 
[ 例 5.7] 基于 3 种 拉 普 拉 斯 模板 的 滤波 
>> I = imread('bacteria.bmp'); 
>> figure, imshow(]); % 得 到 图 5.9 (a) 
>> I = double(]1); 
>> wl=[0-10;-14-1:0-10|] 
wl1 = 

0 -1 0 

-1 4 -1 

0 -1 0 
>> L1 = imfilter(], w1, 'corr', 'replicate'); 
>> w2 =[-1 -1 -1; -1 8 -1; -1 -1 -1] 








W2 = 
-1 -1 -1 
-1 8 -1 
-1 -1 -1 


>> L2 = imfilter(], w2, 'corr', 'replicate'); 
>> figure, imshow(abs(L1), []);% 得 到 图 5.9 (b) 
>> figure, imshow(abs(L2), []);% 得 到 图 5.9 (c) 
>> w3=[141;4-204;141] 
Ww3 = 
1 4 1 
4 -20 4 
1 4 1 
>> L3 = imfilter(], w3, 'corr', 'replicate'); 
>> figure, imshow(abs(L3), []);% 得 到 图 5.9 (qd) 





上 述 程序 运行 结果 如 图 5.9 所 示 。 对 于 细菌 图 像 拉 普 拉 斯 锐 化 效果 
与 之 前 的 Robert 与 Sobel 梯 度 锐 化 明显 不 同 的 一 点 是 输出 图 像 中 的 双边 
缘 。 此 外 ， 我 们 还 注意 到 拉 普 拉 斯 锐 化 似乎 对 一 些 离散 点 有 较 强 的 啊 
应 。 当 然 由 于 噪声 也 是 离散 点 ， 因 此 这 个 性 质 有 时 是 我 们 所 不 希望 的 。 








(d) 利用 Ws 模板 拉 普 拉 斯 锐 化 


(c) 利用 W3 模板 拉 普 拉 斯 锐 化 
A 图 5.9 拉 普 拉 斯 锐 化 效果 





5.5.2 和 5.5.3 小 节 中 我 们 分 别 介 绍 了 基于 一 阶 导 数 的 Robert 和 Sobel 算 


子 ， 以 及 基于 二 阶 导 数 的 Lapalacian 算 子 ， 并 且 通 过 图 5.8 一 5.9 从 直观 上 
观察 和 比较 了 它们 的 处 理 效 果 。 下 面 将 进行 更 为 精确 的 分 析 和 比较 ， 以 
找到 一 些 能 够 在 实践 中 具有 指导 意义 的 一 般 性 规律 。 

设 图 5.10 最 上 面部 分 的 灰 度 剖面 图 对 应 于 图 像 中 的 一 条 具有 代表 
性 的 水 平 像素 线 ， 其 中 包括 了 灰 度 较 组 变化 的 斜坡 〈 软 边缘 ) 、 孤 江 点 
《很 可 能 为 噪声 ) 、 细 线 〈 细 节 ) 以 及 灰 度 跳 变 的 阶梯 《〈 硬 边缘 ) 。 为 
了 简单 起 见 ， 考 虑 图 像 中 只 有 8 个 灰 度 级 的 情况 。 图 5.10 中 下 面 的 一 行 
给 出 了 这 条 像 系 线 中 各 个 像素 的 灰 度 值 ， 由 此 计算 出 的 一 阶 微分 和 二 阶 
微分 在 图 中 的 第 三 行 和 第 四 行 中 给 出 。 由 于 这 里 的 像素 线 在 图 像 中 是 水 
平分 布 的 ， 因 此 式 5-9 和 式 5-10 可 简化 为 一 维 的 形式 ， 即 一 维 情况 下 的 
一 阶 微分 为 








= f(r+D) 70 (5-11) 
Ox 


一 维 情况 下 的 二 阶 微分 为 


人 





ei 
of . py : , 
-=r+D+fe=l)=2/(%) (5-12) 
OX 
7 s。 4 一 抓 立 点 ?7--*—-*—-。 
6 人 | 
更 6 一 7ZA\ 二 1 
时。 全 坡 人 细 线 、、 阶梯 
其 3 SS ss 八 | 
这 2 SN 上 ““\ 灰 度 恒定 区 域 / 、、 1 
1 是 KA Se 1 
0 We a WE EC 2 
灰 度 值 |5|5|4|s|2|1|olo 
阶 微分 
- 阶 微分 





A 图 5.10 一 阶 与 二 阶 微分 比较 


通过 分 析 这 个 典型 的 灰 度 变化 模型 ， 我 们 就 可 以 很 好 地 比较 噪声 
点 、 细 节 以 及 边缘 的 一 阶 和 二 阶 微分 结果 。 

首先 注意 到 党 着 整个 料 坡 〈 软 边缘 ) ， 一 阶 微分 都 具有 非 0 吧 应 ， 
并 且 当 这 种 斜坡 的 灰 度 过 渡 近 似 线 时 ， 对 应 于 变化 率 的 一 阶 微分 的 啊 应 
为 恒定 值 〈 这 里 为 -1) ;而 二 阶 微分 的 非 0 啊 应 则 只 出 现在 斜坡 的 起 始 
和 终点 处 ， 在 灰 度 变化 率 恒 定 的 矢 面 上 二 阶 微分 值 为 0， 这 就 是 图 5.9 中 
的 拉 普 拉 斯 锐 化 图 像 周围 出 现 双 边缘 的 原因 。 由 此 得 出 结论 ， 对 于 图 像 
中 的 软 边缘 ， 一 阶 微 分 通常 产生 较 粗 的 边缘 ， 而 二 阶 微分 则 细 得 多 。 

再 来 看 扳 立 噪声 点 ， 注 意 到 二 阶 微分 对 于 噪声 点 的 啊 应 较 一 阶 微分 
要 强 很 多 ， 这 也 就 是 图 5.9 中 的 拉 普 拉 斯 锐 化 图 像 中 出 现 一 些 零 星 的 高 
啊 应 的 原因 ， 当 然 二 阶 微分 的 这 一 性 质 是 我 们 所 不 希望 的 。 

细 线 常常 对 应 于 图 像 中 的 细节 ， 二 阶 微分 对 细 线 的 较 强 响 应 说 明了 
二 阶 微分 对 于 细节 增强 的 优越 性 。 

最 后 ， 一 、 二 阶 微分 对 于 灰 度 阶梯 有 着 相同 的 啊 应 ， 只 是 在 二 阶 微 
分 中 有 一 个 从 正 到 负 的 过 渡 ， 这 一 性 质 将 在 第 9 章 〈 边 毕 检 测 与 图 像 分 
割 ) 中 用 于 边缘 检测 。 

我 们 将 这 些 比较 的 结论 总 结 如 下 。 

e 一 阶 寻 数 通 闻 会 产生 较 宽 的 边缘 。 

e 二 阶 导数 对 于 阶 路 性 边缘 中 心 产生 零 交 又 ， 而 对 于 屋顶 状 边缘 
( 细 线 ) ， 二 阶 导 数 取 极 值 。 

e 二 阶 导 数 对 细节 有 较 强 的 啊 应 ， 如 细 线 和 孤立 噪声 点 。 

对 于 图 像 增强 而 言 ， 基 于 二 阶 导 数 的 算 子 应 用 更 多 一 些 ， 因 为 它 对 
于 细节 啊 应 更 强 ， 增 强 效果 也 就 更 明显 。 而 在 本 书 第 9 章 讨 论 边 缘 检 训 
的 时 候 ， 基 于 一 阶 导 数 的 算 子 则 会 更 多 地 发 挥 作用 。 尽 管 如 此 ， 一 阶 算 
子 在 图 像 增强 中 依然 不 可 或 缺 ， 它 们 常常 同 二 阶 算 子 结合 在 一 起 以 达到 
更 好 的 锐 化 增强 效果 。 

前 面 最 后 我 们 提 到 了 平滑 滤 流 器 又 可 以 称 为 低 通 滤波 器 ， 相 应 的 ， 



































上 面 介绍 的 几 种 锐 化 滤波 器 也 可 以 称 为 高 通 滤波 占 ， 具 体 得 名 的 原因 将 
在 下 一 章 频 域 滤波 中 说 明 。 





1. 高 提升 滤波 的 原理 

无 论 是 基于 一 阶 微分 的 Robert、Sobel 模 板 还 是 基于 二 阶 微分 的 拉 普 
拉 斯 模板 ， 其 中 各 系数 和 均 为 0。 这 说 明 算 子 在 灰 度 恒定 区 域 的 响应 为 
0， 即 在 锐 化 处 理 后 的 图 像 中 ， 原 图 像 的 平滑 区 域 近 平 于 黑色 ， 而 原 图 
中 所 有 的 边缘 、 细 节 和 灰 度 跳 变 点 都 作为 黑 背 景 中 的 高 灰 度 部 分 突出 显 
示 。 在 基于 锐 化 的 图 像 增 强 中 常常 希望 在 增强 边缘 和 细 市 的 同时 仍然 保 
留 原 网 像 中 的 信息 ， 而 不 是 将 平滑 区 域 的 灰 度 信息 丢失 。 因 此 可 以 把 原 
图 像 加 上 锐 化 后 的 图 像 得 到 比较 理想 的 结果 。 

需要 注意 具有 正 的 中 心 系数 和 具有 负 的 中 心 系 数 的 模板 之 间 的 区 
别 。 对 于 中 心 系 数 为 负 的 模板 〈 如 wl, w3, w5) ， 要 达到 上 述 的 增强 效 
果 ， 显 然 应 当 让 原 图 像 fGi,j) 减 去 锐 化 算 子 直接 处 理 后 的 图 像 ， 即 
































[f(D +Sharpen(f (i,))), 放 锐 化 算 子 中心 系 数 >0 


.a -i ($-13) 
[fe 门 -Sharpen(fti, 门 ，， 并 锐 化 算 子 中 心 系数 <0 


SU 用 
式 中 : Sharpen(.) 表 示 通 用 的 锐 化 算 子 。 
这 里 仅 以 拉 普 拉 斯 锐 化 为 例 ， 几 5.11 (b) 所 示 为 形式 5-13 的 处 理 效 
果 。 








(a) 平滑 后 的 婴儿 照片 baby_smooth.bmp (b) 图 像 (a) 经 过 式 5-13 处 理 


A 图 5.11 


图 5.11 (b) 由 于 锐 化 后 边缘 和 细节 处 的 高 灰 度 值 的 存在 ， 经 灰 度 
伸缩 后 〈 归 一 化 在 [0，255]) 原 图 灰 度 被 压缩 在 一 个 很 罕 的 范围 内 ， 整 
体 上 显得 较 暗 。 为 了 改善 这 种 情况 ， 对 上 面 介绍 的 方法 进行 推广 ， 有 具体 
的 说 就 是 在 复合 ft j) 和 Sharpen(f(i, j)) 时 适当 地 提高 f(i, j) 的 比重 ， 形 式 化 
的 描述 如 下 。 





Af(i, 站 +Sharpen(f(i, 门 ， ”并 锐 化 算 子 中 心 系数 >0 


(5-14) 
Af(i,j)-Sharpen(f(i, 门 ， 并 锐 化 算 子 中 心 系数 <0 


2 二 | 
形式 5-14 这 样 的 滤波 处 理 就 称 为 高 提升 滤波 。 

一 般 来 说 权重 系数 A 应 为 一 个 大 于 等 于 1 的 实数 ，A 越 大 原 图 像 所 占 
比重 越 大 ， 锐 化 效果 越 来 越 不 明显 。 图 5.11 (b〉 对 应 于 A=1 的 情况 ， 图 
5.12 (a) 和 〈b) 分 别 给 出 了 当 人 A 分 别 为 1.8 和 3 时 对 于 图 5.11 (a)〉 中 图 
像 的 高 提升 滤波 的 效果 ， 图 中 细节 得 到 了 有 效 的 增强 ， 对 比 度 也 有 了 一 





定 的 改善 。 





(a) 图 像 (a) 经 过 高 提升 滤波 ，4=1.8 (b) 图 像 (a) 经 过 高 提升 滤波 ，A=3 
A 图 5.12 高 提升 滤波 效果 


2. 高 提升 滤波 的 实现 思路 

高 提升 滤波 可 由 以 下 3 个 步 又 完成 。 

(1) 图 像 锐 化 。 

(2) 原 图 像 与 锐 化 图 像 的 按 比 例 混合 。 

(3) 混合 后 的 灰 度 调整 〈 归 一 化 至 [0, 255]) 。 








锐 化 在 增强 边缘 和 细节 的 同时 往往 也 “增强 ?了 噪声 ， 因 此 如 何 区 分 
开 噪 声 和 边缘 是 锐 化 中 要 解决 的 一 个 核心 问题 。 

基于 二 阶 微分 的 拉 普 拉 斯 算 子 对 于 细节 《 细 线 和 孤立 点 ) 能 产生 更 
强 的 啊 应 ， 并 且 各 向 同性 ， 因 此 在 图 像 增强 中 较 一 阶 的 梯度 算 子 更 受到 
我 们 的 青睐 。 然 而 ， 它 对 于 噪声 点 的 啊 应 也 更 强 ， 我 们 看 到 对 于 图 像 





baby_noise.bmp， 经 拉 普 拉 斯 锐 化 后 噪声 更 明显 ， 如 图 5.13 〈b) 所 示 。 
为 了 在 取得 更 好 的 锐 化 效果 的 同时 把 噪声 的 干扰 降 到 最 低 ， 可 以 先 
对 带 有 噪声 的 原始 图 像 进行 平滑 滤波 ， 再 进行 锐 化 增强 边缘 和 细节 。 本 
着 “ 强 强 联合 ”的 原则 ， 将 在 平滑 领域 工作 得 更 好 的 高 斯 平滑 算 子 同 锐 化 
界 表现 突出 的 拉 普 拉 斯 锐 化 结合 起 来 ， 得 到 高 斯 - 拉 普 拉 斯 算 子 (Marr 
和 Hildreth 提 出 ) 。 
考虑 高 斯 型 函数 











hp(F)==er 0 (S$-15) 


式 中 : I* =x +y? ; 0 为 标准 差 。 

图 像 经 该 函数 滤波 将 产生 平滑 效应 ， 且 平滑 的 程度 由 c 雇 定 。 进 一 
步 计 算 h 的 拉 普 拉 斯 算 子 〈h 关 于 r 求 二 阶 导 数 ) ， 从 而 得 到 闭 名 的 高 斯 - 
拉 普 拉 斯 算 子 (Laplacian of a Gaussian, LoG) 。 





Vih(r)= -Ae 2 (5-16) 
OO 





图 5.13 展 示 了 一 个 LoG 函 数 的 三 维 形 状 。 如 同 从 高 斯 函数 得 到 局 斯 
模板 一 样 ， 将 上 式 经 过 离散 化 可 近似 为 一 个 5x5 的 拉 普 拉 斯 模板 。 








A 图 5.13 Laplacian 函 数 三 维 图 形 


[ 例 5.8] Laplacian 与 LoG 算 子 的 锐 化 效果 比较 。 

下 面 给 出 了 对 于 图 像 babyNew.bmp， 分 别 采 用 Laplacian 和 LoG 算 子 
进行 锐 化 的 Matlab 实 现 。 

>> I = imread('babyNew.bmp'); 

>> figure, imshow(L []); % 得 到 图 5.14 (a) 

>> Id = double(D; % 滤波 前 转化 为 双 精 度 型 

>> h_lap = [-1 -1 -1; -1 8 -1; -1 -1 -1] % 拉 普 拉 斯 算 子 


h_lap = 
-1] -1 -1 
-] 8 -1 
-1] -1 -1 


>> Llap = imtfilter(Id, h_lap, 'corr', replicate'"); % Laplacian 锐 化 
>> figure, imshow(uint8(abs(I_lap)), []); % 取 绝 对 值 并 将 255 以 上 的 响 


应 截断 , % 得 到 图 5.14 (b) 

>> 

>> h_log = fspecial(]og', 5, 0.5); % 大 小 为 5，sigma=0.5 的 LoG 算 子 

>> I log = imtfilter(Id, h_log, 'corr', 'replicate'); 

>> figure, imshow(uint8(abs(I_log)), []);% 得 到 图 5.14 (c) 

>> 

>> h_log = fspecial(]og', 5, 2); % 大 小 为 5，sigma=2 的 LoG 算 子 

>> I log = imfilter(Id, h_log, 'corr', 'replicate'); 

>> figure, imshow(uint8(abs(I_log)), []);% 得 到 图 5.14 (d) 

上 述 程 序 的 运行 结果 如 图 5.14 所 示 。 图 5.14 (c) 和 图 5.14 (d 
) 分 别 给 出 了 对 于 图 像 babyNew.bmp， 当 o=0.5 和 o=2 时 的 LoG 增 强 效 
果 。 与 图 5.14 (b) 相 比 ， 噪 声 得 到 了 有 效 的 抑制 ， 且 c 越 小 细节 增强 效 
果 更 好 ，o 越 大 则 平滑 效果 越 好 。 





(a) 原 图 像 babyNew.bmp (b) Laplacian 锐 化 图 像 ， 噪 声 较 明 显 





< 


(c) 经 LoG 处 理 后 的 图 像 ，o =0.5 (d) 经 LoG 处 理 后 的 图 像 ，a=2 


和 图 5.14 Laplacian 与 LoG 算 子 滤波 效果 比较 





关于 高 斯 - 拉 普 拉 斯 变换 更 为 详细 的 内 容 ， 可 参考 本 书 第 11 章 中 天 
于 边缘 检测 方法 的 讨论 。 


第 6 章 频率 二 增 


空间 域 和 频率 域 为 我 们 提供 了 不 同 的 视角 。 在 空间 域 中 ， 函 数 的 自 
变量 (x，y) 被 视 为 二 维 空间 中 的 一 点 ， 数 字 图 像 f (x，y) 即 为 一 个 
定义 在 二 维 空间 中 的 矩形 区 域 上 的 离散 函数 ， 换 一 个 角度 ， 如 果 将 
f(x，y) 视 为 幅 值 变化 的 三 维 信号 ， 则 可 以 通过 某 些 变换 手段 (如 侍 
立 叶 变换 、 离 散 余 弦 变 换 、 沃 尔 什 变换 和 小 波 变 换 等 ) 在 频 域 下 对 它 进 
行 分 析 。 

第 5 章 详 细 介 绍 了 空间 域 图 像 增强 的 有 关 知 识 ， 紧 接着 本 章 就 从 频 
域 的 角度 去 看 待 和 分 析 图 像 增强 问题 ， 相 信 这 一 定 会 使 您 对 图 像 增强 的 
理解 更 加 深刻 。 

本 章 的 知识 和 技术 热点 

e 傅立叶 变换 的 数学 基础 

e 快速 傅立叶 变换 

e 频率 域 图 像 增强 

e 高 通 滤波 器 和 低 通 滤波 器 

本 章 的 典型 案例 分 析 

e 美女 与 猫 一 一 交换 两 幅 图 像 的 相位 谱 

e 利用 频 域 滤 波 消 除 周期 噪声 











在 很 多 情况 下 ， 频 率 域 滤波 和 空间 域 沽 波 可 以 视 为 对 于 同一 个 图 像 
增强 问题 的 殊途同归 的 两 种 解决 方式 。 而 在 另外 一 些 情况 下 ， 有 些 增强 
问题 更 适合 在 频 域 中 完成 〈6.7 节 ) ， 有 些 则 更 适合 在 空域 中 完成 。 我 
们 常 第 根据 需要 选择 是 工作 在 空间 域 还 是 频率 域 ， 并 在 必要 时 在 空间 域 




















和 频率 域 之 间 相 互 转换 。 

傅立叶 变换 提供 了 一 种 变换 到 频率 域 的 手段 ， 由 于 用 传 立 叶 变换 表 
示 的 函数 特征 可 以 完全 通过 傅立叶 反 变 换 进 行 重建 ， 不 丢失 任何 信息 ， 
因此 它 可 以 使 我 们 工作 在 频率 域 ， 而 在 转换 回 空 间 域 时 不 丢失 任何 信 


自 


4U oO 








6.2 傅立叶 变换 基础 知识 


要 理解 任 立 叶 变 换 ， 掌 握 频 率 域 滤波 的 思想 ， 必 要 的 数学 知识 是 不 
能 跳 过 的 。 为 便于 理解 ， 我 们 将 尽 可 能 定性 地 去 插 述 。 其 实 传 立 叶 变 换 
所 必需 的 数学 知识 对 于 一 个 理工 科大 学 二 年 级 以 上 的 学 生来 说 是 很 有 限 
的 ， 高 等 数学 中 传 立 叶 级 数 的 知识 加 上 线性 代数 中 基 和 回 量 空间 的 概念 
就 足够 了 了。 下面 就 从 一 维 情况 下 的 傅立叶 级 数 开始 进 行 介绍 。 











6.2.1 傅立叶 级 数 





法 国 数学 家 傅立叶 发 现任 何 周 期 函数 只 要 满足 一 定 条 件 〈( 狄 利 赫 里 
条 件 ) 都 可 以 用 正弦 函数 和 余弦 函数 构成 的 无 穷 级 数 ， 即 以 不 同 频 京 的 
正弦 和 余弦 函数 的 加 权 和 来 表示 ， 后 世 称 为 傅立叶 级 数 。 

对 于 有 限定 义 域 的 非 周 期 函数 ， 可 以 对 其 进行 周期 拓 延 ， 从 而 使 其 
在 整个 扩展 定义 域 上 为 周期 函数 ， 从 而 也 可 以 展开 为 傅立叶 级 数 。 

1. 传 立 叶 级 数 的 三 角形 式 

周期 为 T 的 函数 f(t 的 三 角形 式 傅立叶 级 数 展开 为 





NS EF >》 (ax COSNOOX + bi Sin nox) (6-1) 
k=] 


了 中 


7“ ， 而 u=VT， 是 函数 f(x) 的 频率 ， 

a 和 b, 称 为 传 立 叶 系数 。 稍 后 在 学 习 傅立叶 级 数 的 复数 形式 时 还 将 
介绍 傅立叶 系数 的 另 一 种 形式 。 事 实 上 ， 傅 立 叶 系 数 正 是 我 们 在 6.2.2 小 
节 傅立叶 变换 中 所 关心 的 对 象 

于 是 ， 周 期 函数 f(D 就 与 下 面 的 傅立叶 序列 产生 了 一 一 对 应 ， 即 








(XI < | ao, (a1,Di),(a2 ,Db ): | (6-2) 


图 6.1 所 示 形 象 地 显示 出 了 这 种 频率 分 解 ， 左 侧 的 周期 函数 f (x) 可 
以 由 右 侧 函数 的 加 权 和 来 表示 ， 即 由 不 同 频率 的 正弦 和 余弦 函数 以 不 同 
的 系数 组 合 在 一 起 。 


伟 立 叶 分 解 ; 


原始 信号 ” 不同 频 率 的 正弦 ( 余弦 ) 波 的 混合 
A 图 6.1 函数 f(x) 的 傅立叶 分 解 。 


原 函 数 f (x) 〈 左 ) ， 其 傅立叶 展开 为 一 系列 不 同 频 率 的 正弦 、 余 
弦 函 数 的 加 权 和 “【〔 右 ) 

从 数学 上 已 经 证 明了 ， 傅 了 立 叶 级 数 的 前 N 项 和 是 原 函 数 f(D) 在 给 定 能 
量 下 的 最 佳 允 近 





lim | =0 (6-3) 





y 2 
要 (71)— 熙 二 > (ax cos kot + br sin ton| a 


k=] 








图 6.2 为 我 们 展示 了 对 于 一 个 方 波 信号 冰 数 采用 不 同 的 N 值 的 逼近 情 
况 。 随 看 N 的 增 大 ， 荧 近 效 果 越 来 越 好 。 但 同时 也 注意 到 ， 在 f (x) 的 不 
可 导 点 上 ， 如 果 只 取 式 〈6-1) 右边 的 无 穷 级 数 中 的 有 限 项 之 和 作为 


1 (00， 那 么 JG90 在 这 些 点 上 会 有 起 伏 ， 对 于 图 6.2 〈a) 的 方 波 信号 尤为 
明显 ， 这 就 是 著名 的 吉 布 斯 现象 。 

2. 傅立叶 级 数 的 复 指数 形式 

除 上 面 介绍 的 三 角形 式 外 ， 傅 立 叶 级 数 还 有 其 他 两 种 常用 的 表现 形 
式 ， 即 余弦 形式 和 复 指数 形式 。 借 助 欧 拉 公式 ， 上 述 3 种 形式 可 以 很 方 
便 地 进行 等 价 转化 ， 本 质 上 它们 都 是 一 样 的 。 





es 
| | 


(a) 方 波 信 和 号 (b) N=5 (c) N=30 (d) N=80 





4 图 6.2 采用 不 同 的 N 值 时 傅立叶 级 数 展开 的 遥 近 效果 


复 指 数 传 立 叶 级 数 即 我 们 经 音 说 的 傅立叶 级 数 的 复数 形式 ， 因 其 有 具 
有 简洁 的 形式 (只 需 一 个 统一 的 表达 式 计算 傅立叶 系数 ) ， 在 进行 信和 号 
和 系统 分 析 时 通 闻 更 易于 使 用 ， 而 余弦 传 立 叶 级 数 可 使 周期 信号 的 幅度 
详 和 相位 谱 意 义 更 加 直观 ， 函 数 的 余 强 傅立叶 级 数 展开 可 以 解释 为 f(x) 
可 以 由 不 同 频 京 和 相位 的 余弦 波 以 不 同系 数组 合 在 一 起 来 表示 ， 而 在 三 
角形 式 中 相位 是 隐藏 在 系数 Au 和 bu 中 的 。 下 面 主要 介绍 复 指数 传 立 叶 级 
数 ， 在 后 面 的 傅立叶 变换 中 要 用 到 的 正 是 这 种 形式 。 关 于 余弦 傅立叶 级 
数 的 有 关 知 识 ， 感 兴趣 的 读者 请 参考 附录 [IT。 

傅立叶 级 数 的 复 指数 形式 为 











f(x) > ee ( 6-4) 


开 三 一 OK 


3h: 


和 二 n RN dx (n= 0;,E1+2....) (6-5) 

由 式 (6-4) 和 “6-5〉 可 见 ， 复 指数 傅立叶 级 数 形式 比较 简洁 ， 级 
数 和 系数 都 可 以 采用 一 个 统一 的 公式 计算 。 有 关 如 何 由 式 (6-1) 推导 
出 傅立叶 级 数 复 指数 形式 〈6-4) 的 过 程 ， 由 于 这 里 我 们 感 兴趣 的 并 非 
傅立叶 级 数 本 号 ， 融 不 在 正文 中 给 出 了 ， 详 细 的 内 容 可 参考 附录 开 ， 只 
要 您 相信 不 同 的 展开 形式 之 间 本 质 上 是 等 价 的 ， 并 对 复 指 数 形式 的 传世 
叶 级 数 展开 建立 了 一 个 基本 的 形式 上 的 认识 就 足以 继续 阅读 和 理解 后 面 
的 内 容 了 。 





6.2.2 傅立叶 变换 


1. 一 维 连 续 傅立叶 变换 

a 个 时 间 轴 (oo0<t <%%) 的 非 周期 函数 f (t) ， 此 时 
己 无 法 通过 周期 拓 延 将 其 扩展 为 周期 函数 ， 这 种 情况 下 就 要 用 到 傅立叶 
变换 。 





FoD)=| CDer2madr (6-6) 
由 F(u) 我 们 还 可 以 通过 傅立叶 反 变换 获得 f (t)。 
f=| Fle ™du (6-7) 
式 〈6-6) 和 式 《〈6-7) 即 为 我 们 通常 所 说 的 傅立叶 变换 对 ，6.1 节 中 


提 到 的 函数 可 以 从 它 的 反 变 换 进行 重建 正 是 基于 上 面 的 传 立 叶 变 换 对 。 
由 于 傅立叶 变换 与 传 立 叶 级 数 涉 及 两 类 不 同 的 函数 ， 在 很 多 数字 图 








像 处 理 的 书 中 通常 对 它们 分 别 进行 处 理 ， 并 没有 曾 明 它们 之 间 存 在 的 密 
切 联系 ， 这 给 很 多 初学 者 带 来 了 了 困扰， 实际 上 我 们 不 妨 认 为 周期 函数 的 
周期 可 以 趋 回 无 穷 大 ， 这 样 可 以 将 傅立叶 变换 看 成 是 傅立叶 级 数 的 推 
J 

仔细 地 观察 式 (6-6) 和 式 〈6-7) ， 对 比 复 指 数 形式 的 傅立叶 级 数 
展开 公式 式 (6-4) ， 注 意 到 在 这 里 傅立叶 变换 的 结果 F(u) 实 际 上 相当 于 
傅立叶 级 数 展开 中 的 傅立叶 系数 ， 而 有 反 变换 公 式 式 (6-7〉 则 体现 出 不 
同 频 率 复 指数 函数 的 加 权 和 的 形式 ， 相 当 于 复 指 数 形式 的 傅立叶 级 数 展 
开 公 式 ， 只 不 过 这 里 的 频率 u 变 为 了 连续 的 ， 所 以 加 权 和 采用 了 积分 的 
形式 。 这 是 因为 随 着 作为 式 〈6-5) 的 积分 上 下 限 的 T 同 整个 实数 定义 域 
扩展 ， 即 To, 频 率 u 则 趋 近 于 du《〈 因 为 u=1T) ， 导 致 原来 离散 变化 的 u 
的 连续 化 。 

2. 一 维 离散 傅立叶 变换 











一 维 函 数 fx)〈 其 中 x=0, 1 2 ,… ,M-1) 的 傅立叶 变换 的 离散 形式 
为 
if 一 1 > 
Fln)=" 7 FO A w= 0 2 (6-8) 
x=0 
相应 的 有 反 变换 为 
| NM 一 | 区 
f(x)=— ,Fl(We ™ ,x=0,1,2,...,M—l (6-9) 


u=0 


由 于 一 维 情况 下 很 多 性 质 更 为 直观 ， 我 们 更 青睐 于 分 析 一 维 离散 传 
立 叶 变换 ， 而 由 此 得 出 的 这 些 结论 都 可 顺利 推广 至 二 维 。 一 些 有 用 的 性 
质 如 下 。 

e 仔细 观察 式 (6-8) 和 式 〈6-9) ， 注 意 到 在 频 域 下 变换 F(u) 也 是 


离散 的 ， 且 其 定义 域 仍 为 0 一 M-1， 这 是 因为 Fo 的 周期 性 ， 即 
Fl(u+M)=F() (6-10) 


e 考虑 式 (6-9) 中 的 系数 WM， 在 这 里 该 系数 被 放 在 反 变 换 之 前 ， 
实际 上 它 也 可 以 位 于 式 〈6-8) 的 正 变换 公式 中 。 更 一 般 的 情况 是 只 要 
能 够 保证 正 变换 与 反 变换 之 前 的 系数 乘积 为 HM 即 可 。 例 如 ， 两 个 公式 
的 系数 可 以 均 为 1VM ， 

e 为 了 求 得 每 一 个 F(UJ) 〈u=0, 1 2,.…..,M-1) ， 都 需要 全 部 M 个 点 的 
f(x) 参 与 加 权 求 和 计算 。 对 于 M 个 u， 则 总 共 需 要 大 约 M? 次 计算 。 对 于 
比较 大 M (在 三 维 情况 下 对 应 着 比较 大 的 图 像 〉， 计 算 代 价 还 是 相当 可 
观 的 ， 我 们 会 在 下 一 节 人 快速 傅立叶 变换 中 来 研究 如 何 提 高 计算 效率 的 问 
题 。 

3. 二 维 连续 傅立叶 变换 

有 了 之 前 的 基础 ， 下 面 我 们 将 傅立叶 变换 及 其 反 变 换 推广 至 二 维 。 
对 于 二 维 连续 函数 ， 傅 立 叶 变换 为 








Pee | Re (6-11) 
类 似 的 ， 其 反 变 换 为 
fx 3) = | | Flu ve qudy (6-12) 
4. 二 维 离散 傅立叶 变换 

在 数字 图 像 处 理 中 ， 我 们 关心 的 自然 是 二 维 离散 函数 的 傅立叶 变 


换 ， 下 面 直 接 给 出 二 维 离散 傅立叶 变换 (Discrete Fourier Transform， 
DFT) 公式 。 


M—lN-l 





RE (6-13 ) 
x=0 y=0 
] MlN-l 区 
1 Nai2F(A +vyiN) 得 
on As (6-14) 


相对 于 空间 域 (图像 域 的 变量 x、y， 这 里 的 u、v 是 变换 域 或 者 说 
是 频率 域 变 量 。 同 一 维 中 的 情况 相同 ， 由 于 频谱 的 周期 性 式 (6-13) 只 
需 对 u 值 Cu=0, 1, 2, ...,M-1) 及 v 值 (v=0, 1, 2, ...N-1) 进行 计算 。 同 
样 ， 系 数 LVMN 的 位 置 并 不 重要 ， 有 时 也 放 在 正 变 换 之 前 ， 有 时 则 在 正 
变换 和 反 变 换 前 均 乘 以 系数 1/VMN 。 

根据 式 〈6-13) ， 频 域 原点 位 置 的 傅立叶 变换 为 








M—lN-l 


F(0,0)= 》 2 f(x,») (6-15) 
X=0 y=0 

显然 ， 这 是 f(x, y) 各 个 像素 的 灰 度 之 和 。 而 如 果 将 系数 WMN 放 在 正 
变换 之 前 ， 则 F(0, 0) 对 应 于 原 图 像 f(x, y) 的 平均 灰 度 。F(0, 0) 有 时 被 称 作 
频谱 的 直流 分 量 (DC) 。 

我 们 之 前 曾 指出 了 一 维 函 数 可 以 表示 为 正弦 (余弦 ) 函数 的 加 权 和 
形式 ; 类似 的 ， 二 维 函 数 f(x, y) 可 以 分 解 为 不 同 频 率 的 二 维 正 弦 ( 余 
弦 ) 平面 波 的 按 比例 受 加 。 图 6.3 (Ca) 中 给 出 了 一 幅 简单 的 图 像 ， 可 将 
它 视 为 以 其 灰 度 值 作为 幅 值 的 二 维 函 数 ， 如 图 6.3 (b) 所 示 ， 根 据 式 
(6-13) ， 它 可 以 分 解 为 如 图 6.3(c) 所 示 的 不 同 频 率 和 方向 的 正弦 
(余弦 ) 平面 波 的 按 比例 闭 加 (只 给 出 了 一 部 分 ) 。 比 如 图 6.3 (c) 中 
第 一 行 中 间 的 平面 波 为 sin(Y)， 而 第 二 行 右面 的 平面 波 则 为 sin(X+2Y)， 
而 第 三 行 最 后 的 一 个 为 sin(2X+2Y)。 
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(a) 原 图 像 (b) 图 像 〈a) 对 应 的 二 维 函 数 





A 图 6.3 二 维 函数 f(x, y) 的 傅立叶 分 解 


6.2.3 幅度 谱 、 相 位 谱 和 功率 谱 





下 面 ， 我 们 再 来 定义 傅立叶 变换 的 幅度 谱 、 相 位 谱 以 及 功率 谱 。 


。 幅 度 谱 


|F(u,v)|= [Re(u, v)” 一 Im(u,v) 1 (6-16) 





显然 ， 幅 度 谱 关 于 原点 具有 对 称 性 ， 妈 |F (-u,-v)|=|F (Cu Vv)|。 
e 相位 谱 





Pp(u,v) = arg tan en (6-17) 
通过 幅度 谱 和 相位 谱 ， 我 们 可 以 还 原 F (u, V)。 
F(u,v) =| F (u,v) | el (6-18) 
。 功率 谱 ( 谱 密度 ) 
P(u,v) = FPF (u,v) "= Re yy) + Im(u,v) (6-19) 


式 中 : Re(u, V) 和 Im(u, Vv) 分 别 为 F(u,v) 的 实 部 和 虚 部 。 

幅度 谱 又 叫 频率 谱 ， 是 图 像 增强 中 关心 的 主要 对 象 ， 频 域 下 每 一 点 
(u,v) 的 幅度 |F(u, wjI 可 用 来 表示 该 频率 的 正弦 〈 人 余弦 ) 平面 波 在 舍 加 
中 所 占 的 比例 ， 如 图 6.4 所 示 。 幅 度 谱 直接 反映 频率 信息 ， 是 频 域 滤 波 
中 的 一 个 主要 依据 。 

图 6.4 所 示 幅 度 谱 中 的 A、B、C、D 四 点 的 幅 值 分 别 为 四 周 的 4 个 正 
弦 平 面 波 在 的 加 权 求 和 中 的 权 值 (混合 比例 ) 。 注 意 这 4 个 正弦 平面 波 
的 方向 和 频率 。 








员 


相位 谱 表 面 上 看 并 不 那么 直观 ， 但 它 隐 含 着 实 部 与 虚 部 之 间 的 某 种 
比例 关系 ， 因 此 与 图 像 结 构 息 号 相关 。 

由 于 对 于 和 空域 等 大 的 频 域 空间 下 的 每 一 点 〈u v) ， 均 可 计算 一 
个 对 应 的 E(u, VW 和 qg(u, Vv)， 因 此 可 以 像 显 示 一 幅 图 像 那 样 显示 幅度 谱 和 
相位 谱 。 图 6.5 (b〉、《c) 分 别 给 出 了 图 6.5 〈a) 中 图 像 的 幅度 谱 和 相 
位 谱 ， 获 得 它们 的 方法 请 参考 6.3 节 中 傅立叶 变换 实现 的 相关 内 容 ， 关 


于 幅度 谱 和 相位 详 的 一 个 非常 有 趣 的 例子 请 参考 例 6.2。 





4 图 6.4 幅度 谱 的 音义 














(a) 图 像 circuit.tif (b) 图 (a) 的 幅度 谱 ， 注 意 幅度 谱 关 于 原点 (图 像 中 心 ) 对 称 (c) 图 (a) 的 相位 谱 


和 图 6.5 circuittit 幅 度 谱 和 相位 谱 。 幅 度 谱 和 相位 谱 都 将 〈0,.0) 点 移 到 
了 中 心 


6.2.4 傅立叶 变换 的 实质 一 基尼 


无 论 是 傅立叶 变换 、 离 散 余 弦 变 换 还 是 小 波 变 换 ， 其 本 质 都 是 基 的 
变换 。 下 面 首 先 让 我 们 一 起 回顾 一 下 线性 代数 中 基 和 癌 量 空间 的 相关 知 


二。 








1. 其 和 和 向量 空间 

在 三 维 欧 氏 向 量 空间 中 ， 某 向 量 5 可 以 由 3 个 复数 {vi,vyv3} 来 定义 ， 
常常 记 作 Y=(vl,vzva)， 这 3 个 复数 与 3 个 正 交 单位 向 量 {e,@,@} 相 联 
系 。 实 际 上 ， 有 序 集 {vlvzv3} 表 示 向 量 Y 的 3 个 标量 分 量 ， 也 就 是 系数 ; 
而 3 个 正 交 单位 向 量 {&,e@,@} 即 为 该 三 维 欧 氏 空间 的 基 向 量 。 我 们 称 该 
空间 为 这 3 个 基 向 量 所 张 成 的 空间 ， 任 何 该 空间 中 的 向 量 ? 均 可 由 这 3 个 
基 向 量 的 线性 组 合 (加 权 和 ) 表示 为 











3 
v= viel + Ve 证 Vie3 二 Dvié (6-20) 


is] 


也 可 以 用 矩阵 的 形式 来 表示 该 同 量 。 


Vv =| v (6-21) 











在 上 面 的 投 述 中 涉及 了 癌 量 的 正 交 ， 这 是 向 量 代数 中 一 个 非常 重要 
的 概念 。 为 了 说 明正 交 的 概念 ， 让 我 们 首先 回顾 一 下 向 量 点 积 (数量 
积 ) ， 两 个 向 量 的 点 积 定 义 为 





T 
yi ul yi 

UeV =Iu||v |cos0O= uv +uv, 十 13V3 = [ui U2 13 ] V2 | 三 | U2 V2 = Vv (6-22) 
V3 U3 3 


a vi + + 轨 ”， 表 示 向 量 V 的 模 ; 9 为 向 量 # 和 ?之 间 
的 夹 角 ， 上 标 T 表 示 转 置 。 

此 时 ， 如 果 #e5=0， 则 称 这 两 个 向 量 # 和 V 互相 正 交 。 由 式 (6-22) 
可 知 ， 两 非 零 向 量 正 交 则 cos9=0 ， 说 明 其 夹 角 为 90? (垂直 ) 。 

接 下 来 ， 定 义 一 个 向 量 在 另 一 个 向 量 方向 上 的 投影 或 分 量 关 














在 V 方 向 上 的 投影 (分量 )=ii。 i = (603) 
Vv 








式 中 ， @ 为 向 量 V 单 位 化 后 的 单位 向 量 ， 模 为 1， 方 向 与 相同 。 式 
(6-23) 说 明 如 果 需 要 得 到 某 向 量 在 给 定 方向 上 的 分 量 ， 只 需 计 算 该 向 
量 与 给 定 方向 单位 向 量 的 点 积 。 

图 6.6 能 够 帮助 我 们 理解 上 述 内 容 ， 图 6.6 〈a) 中 为 一 个 三 维 空间 中 
的 向 量 Y 以 及 3 个 单位 正 交 基 向 量 eez,e， 图 6.6 (b) 中 给 出 了 向 量 ?在 
e@: 方 向 的 投影 ?>， 在 图 6.6 〈c) 中 ， 根 据 矢 量 加 法 的 平行 四 边 形 法 则 ， 
向 量 Y 被 分 解 为 3 个 正 交 基 向 量 @1,@2,@ 线 性 组 合 ， 显 然 可 以 表示 为 ?= 
(VsV2V3) 的 形式 。 





























(a) 癌 量 vv 和 三 个 正 交 苦 癌 量 aez,es (b) 问 量 v 在 e: 方向 的 投影 


A 图 6.6 三 维 欧 几 里 得 空间 中 向 量 的 投影 和 正 交 分 解 





(c) 将 向 量 5 分 解 为 三 个 正 交 基 向 量 @1,e;,e; 线性 组 合 的 形式 : VV= Viei 


4 图 6.6 三 维 欧 几 里 得 空间 中 辣 量 的 投影 和 正 交 分 解 〈 续 ) 





将 三 维 向 量 空间 中 基 与 投影 的 概念 推广 至 N 维 癌 量 空间 。 任 何 一 个 
该 空间 中 的 Nx1 向 量 均 可 由 N 个 基 向 量 el ,62 ,.,ew 的 线性 组 合 来 表示 ， 
记 作 


V = 2》 VE (6-24) 





式 中 : 分 量 w 为 向 量 Y 在 & 方 向 的 投影 。 


vi =Vee (6-25) 


式 〈6-24) 称 为 对 v 的 重 构 ， 式 〈6-25) 称 为 对 VY 的 分 解 。 
而 N 个 单位 基 回 量 之 间 满 足 两 两 正 交 关系 ， 肯 





aegi=6)=. 以 二 天 世 泌 (6-26 ) 

2. 基 函 数 和 函数 空间 

尽管 上 面 的 向 量 分 解 与 重 构 的 问题 比较 基础 ， 但 它 与 傅立叶 变换 与 
反 变 换 之 间 的 关系 却 十 分 紧密 。 事 实 上， 它们 在 形式 上 有 着 惊人 的 相 
似 ， 唯 一 不 同 的 是 这 里 的 向 量 空间 变 成 了 函数 空间 ， 向 量 Y 变 成 了 函数 
f(x)， 而 基 向 量 E 4e 2,.…,e "也 相应 地 变 成 了 基 函 数 。 对 比 式 (6-24) 一 
(6-25) 和 式 (6-8) 一 〈6-9) 的 形式 不 难看 出 ， 式 〈6-25) 的 分 解 过 
程 即 相当 于 傅立叶 变换 ， 而 式 (6-26) 的 重 构 过 程 则 恰恰 相当 于 傅立叶 
反 变 换 。 也 就 是 说 ， 相 应 函数 空间 中 的 任意 函数 均 可 以 由 该 函数 空间 中 
的 一 组 基 芳 数 的 加 权 和 来 表示 。 观 察 式 〈6-8) 容易 发 现 ， 这 里 的 基 函 
数 的 形式 为 ei “mx ， 我 们 用 下 面 的 等 式 来 表示 函数 的 正 交 性 。 











| ps 
= ee Sy Volez CY 


至 此 ， 读 者 应 该 已 经 理解 了 傅立叶 变换 的 实质 一 一 基 的 转换 。 对 于 
给 定 函 数 f(x)， 0 
要 的 特性 。 当 某 一 组 基 不 满足 要 求 时 ， 就 需要 通过 变换 将 函数 转换 到 另 
一 组 基 下 表示 ， ee 常用 的 变换 有 傅立叶 变 
换 ( 以 正弦 和 余弦 函数 为 基 函 数 ) 、 小 波 变换 〈 以 各 种 小 波 函 数 为 基 函 
数 ) 、 离 散人 余弦 变换 以 及 Walsh 变换 等 。 实 际 上 ， 我 们 在 第 12 章 中 将 指 
出 ， 特 征 降 维 中 常用 的 主 成 份 分 析 法 〈K-L 变 换 ) 本 质 上 也 是 一 种 基 的 
转换 。 











6.3 快速 傅立叶 变换 及 实现 


6.2 节 介绍 了 离散 傅立叶 变换 (DFT) 的 原理 ， 但 并 没有 涉及 其 实现 
问题 ， 这 主要 是 因为 DFT 的 直接 实现 效率 较 低 。 在 工程 实践 中 ， 我 们 迫 
切 地 需要 一 种 能 够 快速 计算 离散 傅立叶 变换 的 高 效 算 法 ， 快 速 传 立 叶 变 
换 (FFT) 便 应 运 而 生 。 本 市 将 给 出 快速 傅立叶 变换 算法 的 原理 及 其 实 
现 细 市 。 








6.3.1 FFT 变换 的 必要 性 


之 所 以 提出 快速 傅立叶 变换 (FFT) 方法 ， 是 因为 在 计算 离散 域 上 
的 傅立叶 变换 时 ， 对 于 N 点 序列 ， 它 的 DFT 变换 与 反 变 换 对 定义 为 
N-1 ge 
F(u)= 2 /PN n=0,b.,N=LWy =e * 
x=0 (6-28) 


N-l 
| /00= PFW, x=0,1,...,N -1 





”™ WW=0 


于 是 不 难 发 现 ， 计 算 每 个 u 值 对 应 的 F(u) 需 要 N 次 复数 乘法 和 N-1 次 
复数 加 法 。 因 此 ， 为 了 计算 长 上 度 为 N 的 序列 的 快速 传 里 叶 变 换 ， 共 需要 
执行 I? 次 复数 乘法 和 N(N-1) 次 复数 加 法 。 而 实现 1 次 复数 相 加 人 至少 需 要 
执行 2 次 实数 加 法 ， 执 行 1 次 复数 相 乘 则 可 能 需要 至 多 4 次 实数 乘法 和 2 次 
实数 加 法 。 如 果 使 用 这 样 的 算法 直接 处 理 图 像 数 据 ， 则 运算 量 会 大 得 惊 
人 ， 更 无 法 实现 实时 处 理 。 

然而 ， 离 散 傅立叶 变换 的 计算 实质 并 没有 那么 复杂 。 在 离散 传 里 叶 
变换 的 运算 中 有 大 量 重 复 运算 。 上 面 的 变量 WN 是 一 个 复 变 量 ， 但 是 可 
以 看 出 它 具 有 一 定 的 周期 性 ， 实 际 上 它 只 有 NN 个 独立 的 值 。 而 这 NN 个 值 
也 不 是 完全 相互 独立 的 ， 它 们 又 具有 一 定 的 对 称 关 系 。 关 于 变量 WN 的 






































周期 性 和 对 称 性 ， 我 们 可 以 做 如 下 总 结 。 


vy 


Wn" =1,Wy? =-l (6-29) 


N 
Wy =Wy’, Wy? =—Wy’" (0-30) 


式 〈6-29) 是 WwW 矩阵 中 元 素 的 某 些 特殊 值 ， 而 式 〈6-30) 则 说 明了 
W 算 阵 元 素 的 周期 性 和 对 称 性 。 利 用 WwW 的 周期 性 ，DEFT 运 算 中 的 某 些 项 
就 可 以 合并 ;， 而 利用 WwW 的 对 称 性 ， 则 可 以 仅 计算 半 个 WwW 序列 。 而 根据 这 
两 点 ， 我 们 束 可 以 将 一 个 长 度 为 N 的 序列 分 解 成 两 个 长 度 为 NM2 的 序列 
并 分 别 计算 DFT， 这 样 就 可 以 节省 大 量 的 运算 量 。 我 们 将 在 讲述 常见 的 
FFT 算 法 后 分 析 节 省 的 运算 量 。 

这 正 是 快速 傅立叶 变换 (Fast Fourier Transform，FFT) 的 基本 思路 
一 一 通过 将 较 长 的 序列 转换 成 相对 短 得 多 的 序列 来 大 大 减少 运算 量 。 




















6.3.2 常见 的 FET 算 ; 


目前 流行 的 大 多 数 成 熟 的 FFT 算法 的 基本 思路 大 致 可 以 分 为 两 大 
类 ， 一 类 是 按时 间 抽 取 的 快速 傅立叶 算法 〈Decimation In Time, DIT- 
FFT)〉， 男 一 类 是 按 频 率 抽 取 的 快速 傅立叶 算法 (Decimation In 
Freqency, DIF-FFT) 。 这 两 种 算法 思路 的 基本 区 别 如 下 。 

按时 间 抽 取 的 FFT 算 法 是 基于 将 输入 序列 f(x) 分 解 〈( 抽 取 〉 成 较 短 
的 序列 ， 然 后 从 这 些 序列 的 DFT 中 求 得 输入 序列 的 F(W) 的 方法 。 由 于 抽 
取 后 的 较 短 序列 仍然 可 分 ， 所 以 最 终 仅仅 需要 计算 一 个 很 短 的 序列 的 
DFT。 在 这 种 算法 中 ， 我 们 主要 关注 的 是 当 序 列 的 长 度 是 2 的 整数 次 震 
时 ， 如 何 能 够 高 效 地 进行 抽取 和 运算 的 方法 。 

而 按 频 率 抽取 的 FFT 算 法 是 基于 将 输出 序列 FOOD) 分解 “抽取 ) 成 较 
短 的 序列 ， 并 且 从 f(x) 计 算 这 些 分 解 后 的 序列 的 DFT。 同 样 ， 这 些 序列 











可 以 继续 分 解 下 去 ， 继 续 得 到 更 短 的 序列 ， 从 而 可 以 更 简便 地 进行 运 
算 。 这 种 算法 同样 是 主要 针对 2 的 整数 次 窜 长 度 的 序列 的 。 

从 本 章 前 面 对 DFT 的 介绍 和 本 节 开 头 的 分 析 可 知 ， 随 着 序列 长 度 的 
减 小 FFT 运 算 的 复杂 度 将 以 指数 规律 降低 。 

本 节 主 要 讨论 序列 长 度 是 2 的 整数 次 需 时 的 DFT 运算 ， 这 称 为 基 
-2FFT。 除 了 基 -2FFT， 还 有 基 4-FFT 和 基 -8FFT， 甚 至 还 有 基 -6FFT。 
那些 算法 的 效率 比 基 -2FFT 更 高 ， 但 应 用 的 范围 更 狭窄 。 事 实 上 ， 很 多 
商业 化 的 信号 分 析 库 都 是 使 用 混合 基 FFT 的 。 那 样 的 程序 代码 更 加 复 
杂 ， 但 效率 却 高 得 多 ， 而 且 应 用 范围 更 广 。 本 书 从 学 习 和 研究 的 角度 ， 
仅 介 绍 最 第 见 的 按时 间 抽 取 的 基 -2FEFT 算 法 。 




















对 于 基 -2 的 FFT， 可 以 设 序列 长 度 为 N=2+ 。 由 于 N 是 偶数 ， 我 们 可 
将 这 个 序列 按照 项 数 的 奇偶 分 成 2 组 。 分 组 的 规律 如 下 式 所 示 。 





| ed = / 久 (7 ed CE) 
[7Cx+rD= fy (0) 2 


则 f(x) 的 傅立叶 变换 F(u) 可 以 表示 为 f(x) 的 奇数 项 和 侦 数 项 分 别 组 成 
的 序列 的 如 下 变换 形式 。 


N-l 
FUO)= > f OWED of OW + f OW (6-32) 
x*=0 


N N 


一 -| 一 -| 


< eg N 

= (2 WN + 人 二 (6-33 ) 

之 )W, 之 7 )W 2 
We =W i nx 

因为 2 ， 所 以 上 式 可 以 继续 化 简 为 


a A 
= 


F@)= 5 CrJVvm+ S fOr+ Dra" (6-34) 


r=0 2 rt 


容易 发 现 ， 上 式 的 第 一 项 为 f2D 的 NM2 点 DFT， 而 第 二 项 的 求 和 部 
分 为 f2r+1) 的 NM2 点 DFT (序列 f(2r) 和 序列 {(2r+1) 的 周期 均 为 N/2)〉 。 也 
即 


F(u) 一 Fa (u) 十 Ww" Fs (u),u =0, 2 -1 (6-35) 


这 里 ， 我 们 用 fg(u) 和 f 礁 (u) 分 别 表示 f(2r) 和 f(2r+1) 的 N/2 上 DFT。 
而 且 ， 根 据 DFT 序 列 的 周期 性 特点 ， 还 可 得 到 如 下 式 子 成 立 。 


N | N | 
Fa(u)= FS(u+ 2 Fi (u)=Fd (ut+ pa (6-36) 


有 由 于 Wy = 一 | ， 我 们 还 可 以 得 出 


a N 
Re 一 =Wy'"W N 2 = —Wy (6-37 ) 
因此 
ut 人 到 - 
Wy “Fi(u ye) =—WNF(u) (6-38) 


将 式 (6-36) 和 式 (6-37) 代入 式 (6-38) ， 并 根据 式 (6-35) ， 


4 日 
村 


N 
| F(u) 三 下 (u) 十 Wy" Fs (u),u 一 0,1,2,.…,7 -1 
(6-39) 

N s ee N 人 N 
F(u+ RR = Fa(W +Wy “Fs(u = Fm(u)— Wy Fi(u),u = Wb 


这 是 一 个 递 推 公式 ， 它 就 是 FFT 蝶 形 运算 的 理论 依据 。 该 公式 表 
明 ， 一 个 偶数 长 度 序列 的 傅立叶 变换 可 以 通过 它 的 奇数 项 和 偶数 项 的 全 
立 叶 变换 得 到 ， 从 而 可 以 将 输入 序列 分 成 两 部 分 分 别 计算 ， 并 按 公 式 相 
加 / 相 减 。 而 在 这 个 运算 过 程 中 ， 实 际 上 只 需要 计算 Wy ，u=0,1,2,3,.… 
N/2-1。 

因此 ， 一 个 8 点 按时 间 抽 取 的 FFT 算 法 的 第 一 步骤 如 图 6.7 所 示 。 











Ws" 
Ws 
A4)O ee We (I) FO2) 
人 Ws 
BE 
ADO G(4) Sh BE Wo Wo OF 
Pra ec 
Wa’ = - Ws! 
A5)O er () F(6) 
Ws = - Ws 
ANDO CC () FI7) 





A 图 6.7 8 点 FFT 变 换 简 图 


图 6.7 所 示 是 根据 式 〈6-39) 绘制 的 ， 这 一 算法 也 可 以 用 图 6.8 抽 象 
地 表示 出 来 。 


由 于 我 们 讨论 的 是 基 -2 的 FFT 算法 ，MN/2 一 般 应 是 偶数 ， 因 此 得 到 
的 序列 还 可 以 继续 分 解 ， 分 解 过 程 可 以 一 直 持续 到 每 个 序列 只 需要 2 点 
的 DFT。 这 样 只 需要 如 下 的 运算 即 可 计算 这 一 DFT 值 ， 这 一 运算 是 FFT 
的 基本 运算 ， 称 为 蝶 形 运算 。 














Fh Fi+ WF, 
下 了 Fi-Wy FP, 
A 图 6.8 蝶 形 算法 抽象 示意 图 
A CC) F(0) = RO)+ WAL) = AOHAI) 
ADO F(0) =AO)+ WAL) = AON+AI) 


本 
A 图 6.9 蝶 形 算法 基础 单元 


这 一 基础 单元 是 对 初始 输入 序列 进行 傅立叶 变换 操作 的 第 一 步 ， 即 
2 点 时 的 FFT。 把 这 个 基本 的 DFT 运 算 和 上 面 的 抽象 化 蝶 形 运算 比较 ， 可 
以 发 现 它们 的 基本 结构 是 完全 一 致 的 。 在 蝶 形 算法 中 ， 我 们 可 以 只 计算 
一 次 WWF2， 而 后 分 别 与 相 加 和 相 减 ， 从 而 每 一 次 蝶 形 算法 只 需 1 次 复 
数 乘法 和 2 次 复数 加 法 (从 复杂 度 分 析 的 角度 ， 相 减 当 然 也 可 看 作 是 一 
次 加 法 ) 。 并 且 ， 注 意 到 WW =1， 因 此 可 以 进一步 简化 计算 。 尤 其 第 一 











级 蝶 形 运算 更 是 可 以 完全 简化 为 单纯 的 复数 加 减法 。 

一 个 8 点 FFT 的 完整 计算 过 程 如 图 6.10 所 示 ， 请 思考 这 个 过 程 与 DFT 
过 程 的 区 别 ， 以 及 这 个 过 程 所 需 的 算法 复杂 上 度 和 存储 空间 问题 。 稍 后 我 
们 将 讨论 这 个 问题 。 
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A 图 6.10 8 点 FFT 算 法 





用 基 -2 的 时 间 抽 取 FFT 算 法 比 直接 计算 DFT 的 效率 高 得 多 。 在 计算 
长 度 为 N=2 序列 的 FFT 时 ， 在 不 对 复数 乘法 进行 额外 优化 的 情况 下 ， 
所 需 运算 量 分 析 如 下 。 

对 于 每 一 个 蝶 形 运算 ， 我 们 需要 进行 1 次 复数 乘法 和 2 次 复数 加 法 。 
而 FFT 运 算 的 每 一 级 都 含有 N/2 = 201 个 蝶 形 运算 单元 。 因 此 ， 完 成 L 级 
FFT 运 算 共 需要 的 复数 乘法 次 数 m 和 复数 加 法 m., 数 目 分 别 为 





M nm = 一 ee N (6-40) 
2 地 
Ma =LN=NlogsN (6-41) 
而 本 节 开 头 提 到 ， 实 现 同 样 长 度 序 列 的 DFT 运算 则 需要 n“ 次 复数 乘 


法 和 N(N-1) 次 复数 加 法 ， 这 远 远 多 出 FFT 算 法 的 所 需 。 近 似 比 较 FFT 和 和 
DFT 运 算 的 算法 复杂 上 度 可 知 











N* N 
CCN)= = (6-42) 
NlogsN logs N 
或 
7 
Ch ee (6-43) 


因此 ， 在 NN 或 L 取 值 增 大 时 ，FFT 运 算 的 优势 更 加 明显 。 例 如 ， 当 
N=210 时 ，C(N)=102.4， 即 FFT 算 法 的 速度 是 DFT 的 102.4 倍 。 

此 外 ， 从 占用 的 存储 空间 看 ， 按 时 间 抽 取 的 FFT 算 法 也 远 比 DFT 算 
法 节约 。 一 对 复数 进行 完 蝶 形 运算 后 ， 束 没有 必要 再 次 保留 输入 的 复数 
对 。 因 此 ， 输 出 对 可 以 和 输入 对 放 在 相同 的 存储 单元 中 。 所 以 ， 只 需要 
和 输入 序列 大 小 相等 的 存储 单元 即 可 。 也 就 是 一 种 “ 原 位 运算 ”。 

但 是 ， 经 过 观察 上 面 的 8 点 FFT 运 算 全 过 程 ， 我 们 发 现 ， 如 果 要 使 
用 这 种 “ 原 位 ”运算 ， 输 入 序列 就 必须 按照 倒序 存储 。 由 于 f(x) 是 逐次 抽 
取 的 ， 所 以 必须 对 原 输入 码 列 倒转 位 序 ， 得 到 的 次 序 相当 于 是 原 序 列 编 
号 的 二 进 制 码 位 倒置 。 也 即将 原 序 列 编号 按照 二 进 制 表 示 ， 并 且 将 二 进 
制 的 所 有 位 次 序 题 倒 ， 束 得 到 了 在 实际 的 输入 序列 中 应 该 使 用 的 排序 位 
置 。 下 面 同样 以 8 点 FFT 为 例 说 明码 位 倒置 的 方法 ， 如 表 6.1 所 示 。 

















表 6.1 8 点 FFT 的 码 位 倒置 对 应 表 


n 对 应 的 二 进 制 数 码 位 倒置 后 的 二 进 制 数 对 应 在 实际 输入 序列 中 的 位 置 
000 000 
001 100 








~ wii 一 人 | tb 上 | 已 
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乙 | 全 
一 已 


按照 表 6.1 中 的 顺序 排列 输入 数据 ， 就 可 以 方便 地 进行 原 位 运算 ， 
以 节约 内 存 空 间 。 





离散 反 傅立叶 变换 的 形式 与 离散 傅立叶 变换 很 相似 ,首先 比较 它们 
的 公式 形式 。 
离散 反 傅 立 叶 变 换 IDFT 的 公式 为 


N-1 
f (0) =IDFT(F(W)) =— FOOWR™ (6-44) 


= 人 


离散 傅立叶 变换 DFT 的 公式 为 


N-l 
F(u)=DFT(f (x) = 2 /OOWS (6-45) 
x=0 

观察 式 (6-44) 和 式 (6-45) 发 现 ， 只 要 把 DFT 算 子 中 的 Wy 换 成 
Wy”， 并 在 前 面 乘 以 VN， 即 可 得 到 IDFT 的 算 子 。 于 是 考虑 使 用 复数 共 
力 方 式 建立 两 者 之 间 的 联系 ， 推 导 离 散 反 傅 立 叶 变换 的 公式 如 下 。 





N-l 
f= F GOWe™T = {DFTLF GO (6-46) 


N u=0 





因此 ， 我 们 只 需 先 将 F(U 取 共 恩 ， 就 可 以 直接 使 用 FFT 算 法 计算 


IFFT 了 。 








N 维 快速 傅立叶 变换 用 于 对 局 维 信号 矩阵 执行 傅立叶 频谱 分 析 操 
作 。 其 中 二 维 的 快速 傅立叶 变换 常常 用 于 数字 图 像 处 理 。 

N 维 快速 傅立叶 变换 是 由 一 维 FFT 组 合 而 成 的 ， 其 运算 实质 就 是 在 
给 定 二 维 或 多 维 数组 的 每 个 维度 上 依次 执行 一 维 FFT， 并 且 使 用 “ 原 位 运 
算 ” 的 方法 。 在 开始 之 前 ， 算 法 将 输入 下 接 复制 到 输出 上 ， 所 以 之 后 在 
每 个 维度 上 执行 FFT 的 原 位 操作 都 不 会 改变 原本 的 输入 数组 ， 同 时 也 
使 这 个 算法 输出 的 数组 和 输入 的 数组 拥有 同样 的 大 小 和 维度 。 也 就 是 
说 ， 如 果 对 一 幅 灰 度 图 像 执 行 二 维 快速 传 立 叶 变 换 操 作 ， 得 到 的 结果 也 
将 是 一 个 二 维 数组 。 





6.3.6 Matlab 实 现 


Matlab 中 提供 了 fft2 和 ifft2 函 数 分 别 计算 二 维 傅立叶 变换 和 反 变 换 ， 
它们 都 经 过 了 优化 ， 运 算 速 度 非常 快 ， 另 一 个 与 傅立叶 变换 密切 相关 的 
函数 是 fftshift， 常 需要 利用 它 来 将 傅立叶 频谱 图 中 的 零 频 点 移动 到 频谱 
图 的 中 心 位 置 。 

下 面 分 别 介 绍 这 3 个 函数 。 

1. fft2 函 数 

该 函数 用 于 执行 二 维 快速 傅立叶 操作 ， 因 此 可 以 直接 用 于 数字 网 像 
处 理 。 调 用 语法 为 

Y = fft2(X) 





Y = fft2(X,m,n) 

参数 说 明 

e X 为 输入 图 像 。 

em 和 n 分 别 用 于 将 X 的 第 一 和 第 二 维 规整 到 指定 的 长 度 。 当 m 和 n 均 
为 2 的 整数 次 早 时 ， 算 法 的 执行 速度 要 比 m 和 mn 均 为 素数 时 更 快 。 


返回 值 
e Y 是 计算 得 到 的 传 立 叶 频 详 ， 是 一 个 复数 和 矩阵 。 
提示 


计算 abs(Y) 可 得 到 幅度 谱 ， 计 算 angle(Y) 可 得 到 相位 谱 。 

2. fftshift 郴 数 

在 fft2 函 数 输出 的 频谱 分 析 数 据 中 ， 是 按照 原始 计算 所 得 的 顺序 来 
排列 频谱 的 ， 而 没有 以 零 频 为 中 心 来 排列 ， 因 此 造成 了 零 频 在 输 频 谱 箱 
阵 的 角 上 ， 显 示 幅 度 谱 图 像 时 表现 为 4 个 亮度 较 高 的 角 【( 零 频 处 的 幅 值 
较 高 ) ， 如 图 6.11 (a)〉 所 示 。 














(a) 未 经 过 平移 的 幅度 谱 (b) 经 过 平移 的 幅度 谱 
A 图 6.11 频谱 的 平移 
fftshift 函 数 利 用 了 频谱 的 周期 性 特点 ， 将 输出 图 像 的 一 半 平 移 到 另 


一 器 ， 从 而 使 零 频 被 移动 到 图 像 的 中 间 。 其 调用 语法 为 
Y = fftshift(X) 


Y = fftshift(X,dim) 

参数 说 明 

e XX 为 要 平移 的 频谱 。 

e dim 指 出 了 在 多 维 数组 的 哪个 维度 上 执行 平移 操作 。 

返回 值 

e Y 是 经 过 平移 的 频谱 。 

利用 fftshift 函 数 对 图 6.11 (a〉 中 的 图 像 平移 后 的 效果 如 图 6.11 (b) 
所 示 。 

下 面 给 出 对 于 二 维 图 像 矩 阵 ，fftshift 函 数 的 平移 过 程 ， 如 图 6.12 所 


可 见 ， 输 出 矩阵 被 分 为 了 4 个 部 分 ， 其 中 1、3 两 部 分 对 换 ，2、4 两 
部 分 对 换 。 这 样 ， 原 来 在 角 上 的 零 频 率 点 〈 原 点 ) 位 置 束 移动 到 了 图 像 
的 中 央 位 置 。 而 dim 参 数 则 可 以 指定 在 多 维 数组 的 哪个 维度 上 执行 对 换 
操作 。 例 如 ， 对 于 和 矩阵 而 言 ，dim 取 1 和 2 的 情形 分 别 如 图 6.13 所 示 。 





A 图 6.12 FFTSHIFT 对 二 维和 矩阵 的 平移 过 程 


For dim = 1: For dim = 2: 





A 图 6.13 FFTSHIIFT 对 二 维 矩 阵 的 平移 过 程 细节 分 析 


3.ifft2 函 数 

该 函数 用 于 对 图 像 ( 窍 阵 ) 执行 逆 傅 立 叶 变换 。 输 出 窍 阵 的 大 小 与 
输入 矩阵 相同 。 调 用 形式 为 

Y = ifft2(X) 

Y = ifft2(X,m,n) 

参数 说 明 

e X 为 要 计算 反 变 换 的 频谱 。 

e m、n 的 意义 与 fft2 中 相同 。 


返回 值 
e Y 是 反 变 换 后 得 到 的 原始 图 像 。 
注意 


在 执行 IFFT2 函 数 之 前 ， 如 果 曾 经 使 用 FFTSHIFT 函 数 对 频 域 图 像 进 
行 过 原点 平移 ， 则 还 需要 使 用 IFFTSHIFT 将 原点 平移 回 原 位 置 。 

[ 例 6.1] 幅度 谱 的 意义 

下面 的 程序 展示 了 如 何 利用 fft2 进 行 二 维 快速 傅立叶 变换 。 为 了 更 

好 地 显示 频谱 图 像 ， 需 要 利用 3.3 节 中 学 习 过 的 对 数 变换 来 增强 频谱 。 

I1 = imread('cell.tif");”% 读 入 原 图 像 

fcoef = fft2(double(11));。”% 做 fft 变 换 

spectrum = fftshift(fcoef);“。% 将 零点 移 到 中 心 

temp =]log(1+abs(spectrum));”% 对 幅 值 做 对 数 变 换 以 压缩 动态 范 

subplot(1,2,1); 

imshow(temp,[}); 

title('FFT'); 

subplot(1,2,2); 


imshow!(!I1); 











title('Source ') 

12 = imread('circuit.tif); 9% 读 入 原 图 像 

fcoef = fft2(double(I2)); 9% 做 fft 变 换 

spectrum = fftshift(fcoef);  % 将 零点 移 到 中 心 

temp =log(1+abs(spectrum)); 9% 对 幅 值 做 对 数 变换 以 压 纵 动态 范 

figure; 

subplot(1,2,1); 

imshow(temp,[]); 

title( FFT'); 

subplot(1,2,2); 

imshow(I2); 

title('Source ') 

上 述 程 序 的 运行 结果 如 下 。 

由 图 6.14 所 示 可 以 看 出 ， 图 6.14 (b) 中 的 cell.tif 图 像 较为 平滑 ， 而 
在 其 傅立叶 频谱 中 ， 低 频 部 分 对 应 的 幅 值 较 大 ;而 对 图 6.14 (d〉 中 细 
复杂 的 的 图 像 circuit.tif， 灰 度 的 变化 趋势 更 加 剧烈 ， 相 应 的 频谱 中 高 
频 分 量 较 强 。 

事实 上 ， 由 于 图 6.14〈b) 图 中 基本 只 存在 水 平和 垂直 的 线条 ， 导 
致 了 在 输出 的 频谱 中 腕 线 集中 存在 于 水 平和 垂直 方 同 (并且 经 过 原 
点 ) 。 有 具体 地 说 ， 原 图 像 中 的 水 平 边缘 对 应 于 频谱 中 的 竖 直 亮 线 ， 而 坚 
直 边 缘 则 对 应 着 频谱 中 的 水 平 啊 应 。 我 们 不 妨 这 样 理解 ， 水 平方 同 的 边 
缘 可 以 看 作 在 竖 直 方 辐 上 的 灰 度 值 的 矩形 脉冲 ， 而 这 样 的 算 形 脉冲 可 以 
分 解 为 无 数 个 竖 直 方 同 正弦 平面 波 的 闭 加 ， 从 而 对 应 频 域 图 像 中 的 垂直 
亮 线 ; 而 对 于 竖 直 方向 的 边缘 ， 情 况 是 类 似 的 。 

通过 例 6.1 可 以 发 现 一 些 频谱 与 其 空间 域 图 像 之 间 的 联系 。 实 际 
上 上 ， 低 频频 谱 图 像 中 靠近 中 心 的 区 域 》 对 应 着 图 像 的 慢 变 化 分 量 ， 高 
频 〈 频 谱 图 像 中 远离 中 心 的 区 域 ) 对 应 着 一 幅 图 像 中 较 快 变化 的 灰 度 














级 ， 利 和 常 对 应 着 图 像 细节 ， 如 物体 的 边缘 和 噪声 等 。 就 拿 图 6.14 〈c) 的 
电路 图 像 来 说 ， 电 路 板 的 灰 度 较为 一 致 的 背景 区 域 就 对 应 着 频谱 的 低频 
部 分 ， 而 横 紧 电路 线条 的 灰 度 变换 则 是 相对 高 频 的 成 份 ， 且 灰 度 变换 越 
剧烈 ， 束 对 应 痢 越 高 的 频 域 分 量 。 














A 图 6.14 图 像 及 其 幅度 谱 


我 们 在 6.2.3 小 厄 曾 给 出 了 幅度 谱 和 相位 谱 的 定义 ， 并 对 其 作用 进行 
了 简单 的 介绍 。 为 了 进一步 加 深 读 者 对 幅度 谱 和 相位 谱 的 认识 ， 这 里 给 
出 一 个 关于 它们 的 有 趣 的 例子 。 

[ 例 6.2] 美 女 与 猫 一 一 交换 两 幅 图 像 的 相位 谱 

图 6.15 (a) 、“【b) 中 分 别 是 一 张 美女 的 照片 和 一 张 猫 的 照片 ， 这 
里 我 们 准备 交换 这 两 幅 图 像 的 相位 谱 ， 即 用 美女 的 幅度 谱 加 上 猫 的 相位 
谱 ， 而 用 猫 的 幅度 谱 加 上 美女 的 相位 谱 ， 然 后 根据 式 (6-18) ， 通 过 幅 
度 谱 和 相位 谱 来 还 原 傅 立时 变换 F(uv)， 再 经 倩 立 叶 反 变 换 得 到 交叉 相 
位 谱 之 后 的 图 像 。 根 据 6.2.2 中 关于 幅度 谱 和 相位 谱 各 自作 用 的 讨论 ， 您 
能 想到 这 样 做 将 会 产生 怎样 的 结果 吗 ? 

% ex6_2.m 

% 读 取 图 片 

A = imread('../beauty.jpg"); 





B = imread('../cat.jpg"); 
% 求 傅立叶 变换 


Af = fft2(double(A)); 

Bf = fft2(double(B)); 

% 分 别 求 幅度 谱 和 相位 谱 

AfA = abs(Af); 

AfB = angle(Af); 

BfA = abs(Bf); 

BfB = angle(Bf); 

% 交换 相位 谱 并 重建 复数 矩阵 

AfR = AfA .* cos(Bf{B) + AfA .* sin(Bf{B) .* i; 
BfR = BfA .* cos(AfB) + BfA .* sin(AfB) .* i; 
% 傅立叶 反 变换 

AR = abs(ifft2(AfR)); 

BR = abs(ifft2(Bf{R)); 

% 显示 图 像 

subplot(2,2, 1); 

imshow(A); 

title( 美 女 原 图 像 ); 

subplot(2,2,2); 

imshow(B); 

title( 猎 的 原 图 像 ”); 

subplot(2,2,3); 

imshow(AR, []); 

title(' 美 女 的 幅度 谱 和 猫 的 相位 谱 组 合 '); 
subplot(2,2,4); 

imshow(BR, [)); 

title(' 猎 的 幅度 谱 和 美女 的 相位 谱 组 合 "); 
程序 运行 结果 如 图 6.15 所 示 。 


ey 
有 


(b) 猫 的 图 像 


(c) 美女 幅度 谱 加 上 猫 的 相位 谱 (d》 猎 的 幅度 谱 加 上 美女 的 相位 谱 








A 图 6.15 幅度 谱 与 相位 谱 的 关系 


通过 这 个 示例 ， 我 们 可 以 友 现 ， 交 换 相位 谱 之 后 ， 肥 变换 之 后 得 到 
用 术 四 全 与共 让 位 由 济 册 出 图 像 一 到 这 就 印证 了 我 们 之 前 关于 相位 
说 决定 图 像 结构 的 论断 。 而 图 像 中 整体 灰 度 分 布 的 特性 ， 如 明暗 、 灰 度 
变化 趋势 等 则 在 比较 大 的 程度 上 取决 于 对 应 的 幅度 谱 ， 因 为 幅度 谱 反 映 
了 图 像 整 体 上 各 个 方 同 的 频率 分 量 的 相对 强度 。 











传 立 叶 变换 可 以 将 图 像 从 空域 变换 到 频 域 ， 而 传 立 叶 反 变 换 则 可 以 
将 图 像 的 频谱 逆 变 换 为 空域 图 像 ， 即 人 可 以 直接 识别 的 图 像 。 这 样 一 


来 ， 我 们 可 以 利用 空域 图 像 与 频谱 之 间 的 对 应 关系 ， 答 试 将 空域 卷 积 滤 
波 变换 为 频 域 滤波 ， 而 后 再 将 频 域 滤波 处 理 后 的 图 像 反 变换 回 空间 域 ， 
从 而 达到 图 像 增强 的 目的 。 这 样 做 的 一 个 最 主要 的 吸引 力 在 于 频 域 滤波 
的 直观 性 特点 ， 关 于 这 一 点 稍 后 将 进行 详细 的 阐述 。 

根据 著名 的 卷 积 定理 : 两 个 二 维 连 续 函 数 在 空间 域 中 的 卷 积 可 由 其 
相应 的 两 个 傅立叶 变换 乘积 的 反 变 换 而 得 到 ， 反 之 ， 在 频 域 中 的 卷 积 
由 在 空间 域 中 乘积 的 传 立 叶 变 换 而 得 到 ， 即 











Nx yh(xy)<==>F(u,v)H(u,Y) (6-47) 
NxvN(xy)<==>F(u,v)*H(u,v) (0-48) 


其 中 ，F(u, Vv) 和 H(u, Vv) 分 别 表示 f(x, y) 和 h(x, y) 的 傅立叶 变换 ， 而 符 
号 <==> 表 示 传 立 叶 变换 对 ， 即 左 侧 的 表达 式 可 通过 傅立叶 正 变换 得 到 
右 侧 的 表达 式 ， 而 右 侧 的 表达 式 可 通过 傅立叶 反 变 换 得 到 左 侧 的 表达 
了 

式 〈6-47) 构成 了 整个 频 域 滤波 的 基础 ， 卷 积 的 概念 我 们 曾 在 第 5 
章 空 间 域 滤波 中 讨论 过 ， 而 式 中 的 乘积 实际 上 就 是 两 个 二 维 算 阵 F(u, Vv) 
和 H(u, V) 对 应 元 素 之 间 的 乘积 。 


6.4.2 频 域 滤 ; 





根据 式 〈6-47) 进行 频 域 滤波 通常 应 遵循 以 下 步骤 。 
(1) 计算 原始 图 像 f(x, y) 的 DFT， 得 到 F(u, v)。 
(2) 将 频谱 F(u, Vv) 的 零 频 点 移动 到 频谱 图 的 中 心 位 置 。 
(3) 计算 滤波 器 函数 H(u, V) 与 F(u, V) 的 乘积 G(u, v)。 
(4) 将 频谱 G(u, v) 的 零 频 点 移 回 到 频谱 图 的 左上 角 位 置 。 
(5) 计算 第 (4) 步 计算 结 果 的 傅立叶 反 变 换 g(x, y)。 
(6) 取 g(x, y) 的 实 部 作为 最 终 滤波 后 的 结果 图 像 。 





由 上 面 的 叙述 易 知 ， 滤 波 能 否 取 得 理想 结果 的 关键 取决 于 频 域 滤波 
函数 Hu v)。 我 们 常常 称 之 为 滤波 器 ， 或 滤波 器 传递 函数 ， 因 为 它 在 滤 
波 中 抑制 或 滤 除 了 频谱 中 某 些 频 率 的 分 量 ， 而 保留 其 他 的 一 些 频 率 不 受 
影响 。 本 书 中 我 们 只 关心 其 值 为 实数 的 滤波 器 ， 这 样 滤波 过 程 中 再 的 
每 一 个 实数 元 素 分 别 乘 以 F 中 对 于 位 置 的 复数 元 素 ， 从 而 使 F 中 元 素 的 实 
部 和 虚 部 等 比例 的 变化 ， 不 会 改变 了 的 相位 谱 ， 这 种 滤波 器 也 因此 被 称 
为 “ 零 相 移 ”滤波 器 。 这 样 ， 最 终 反 变换 回 空域 得 到 的 滤波 结果 图 像 g(x， 
理论 上 也 应 当 为 实 函 数 。 然 而 由 于 计算 舍 入 误差 等 原因 ， 可 能 会 带 有 
非常 小 的 虚 部 ， 通 常 将 虚 部 直接 忽略 。 

为 了 更 为 直观 地 理解 频 域 滤波 与 空域 滤波 之 间 的 对 应 关系 ， 让 我 们 
先 来 看 一 个 简单 的 例子 。6.2 节 中 兽 指 出 了 原点 处 的 傅立叶 变换 F(0, 0) 实 
际 上 是 图 像 中 全 部 像素 的 灰 度 之 和 。 那 么 如 果 我 们 要 从 原 图 像 f(x, y) 得 
到 一 幅 像 素 灰 度 和 为 0 的 空域 图 像 g(x, y)， 就 可 以 先 将 f(x, y) 变 换 到 频 域 
F(u, V)， 而 后 令 F(0, 0)=0《〈 在 原点 移动 到 中 心 的 频谱 中 为 FUM/2， 

N/2)) ， 再 反 变 换 回 去 。 这 个 滤波 过 程 相当 于 计算 F(u, wm 和 如 下 的 Hu 
Vv) 之 间 的 乘积 。 








[0, (u,v)=(M /2,N/2) 


H(u,v)= (6-49) 
WwW=| yw, 址 郊 ， 


上 式 中 的 HQu, Vv) 对 应 于 平移 过 的 频谱 ， 其 原点 位 于 (M/2, N/2) 。 
显然 ， 这 里 H(u, v) 的 作用 就 是 将 点 F(M/2, NM2) 置 零 ， 而 其 他 位 置 的 Fu， 
Vv) 保 持 不 变 。 有 兴趣 的 读者 可 以 自己 尝试 这 个 简单 的 频 域 滤 波 过 程 ， 反 
变换 之 后 验证 g(x, y) 的 所 有 像素 灰 度 之 和 是 否 为 0。 我 们 将 在 6.4.2 小 节 详 
细 地 探讨 一 些 具有 更 高 实用 性 的 频 域 滤波 器 。 





为 方便 读者 在 Matlab 中 进行 频 域 滤波 ， 我 们 编写 了 imfredfilt 函 数 ， 
其 用 法 同 空域 小 波 时 使 用 的 imfilter 函 数 类 似 ， 调 用 时 需要 提供 原始 图 像 
和 与 原 图 像 等 大 的 频 域 滤波 占 作 为 参数 ， 函 数 的 输出 为 经 过 滤波 处 理 文 
反 变 换 回 空域 之 后 的 图 像 。 

注意 

通常 使 用 fftshift 函 数 将 频谱 原点 移 至 图 像 中 心 ， 因 此 需要 构造 对 应 
的 原点 在 中 心 的 滤波 器 ， 并 在 滤波 之 后 使 用 ifftshift 函 数 将 原点 移 回 以 进 
行 反 变换 。 

频 域 滤波 算法 imfreqfilt 的 完整 实现 如 下 ， 该 算法 被 封装 在 金 羽 图 
书 论坛 ( http://bbs.book 95.com) 的 “ 金 羽 图 书 与 答疑 "板块 与 本 书 同名 
的 主题 帖子 附件 的 “chapter6/code” 目 录 下 的 imfreqfilt.m 文 件 中 。 

function out = imfreqgfilt(1, ff) 

% imfregfilt 函 数 ”对 灰 度 图 像 进行 频 域 小 波 

% 参数 I 输入 的 空域 图 像 

% 参数 任 ”应 用 的 与 原 图 像 等 大 的 频 域 滤 镜 

if (ndims(D)==3) && (size(L3)==3) % RGB 图 像 

[=Tgb2gray(D); 








end 

让 (Size() ~= size(ff)) 
msg1 = sprintf('%s: 滤 镜 与 原 图 像 不 等 大 ， 检 查 输 入 , mfilename); 
msg2 = Sprintf('%s: 滤波 操作 已 经 取消 , mfilename); 
eid = sprintf(Tmages:%s:ImageSizeNotEqual',mfilename); 
error(eid,'%s %s',msg1,msg2); 

end 

% 快速 傅立叶 变换 

f= ftt2(double(D); 

% 移动 原点 


s = fftshift(f); 

% 应 用 滤 镜 及 反 变 换 

out = s .* ff; % 对 应 元 系 相 乘 实现 频 域 滤波 
out = ifftshift(out); 

out = ifft2(out); 

% 求 模 值 

out = abs(out); 

% 归 一 化 以 便 显示 


out = out/max(out(:)); 


6.5 频 握 





在 频谱 中 ， 低 频 主 要 对 应 图 像 在 平滑 区 域 的 总 体 灰 度 级 分 布 ， 而 高 
频 对 应 图 像 的 细 布 部 分 ， 如 边缘 和 噪声 。 因 此 ， 图 像 平 滑 可 以 通过 台 减 
图 像 频谱 中 的 高 频 部 分 来 实现 ， 这 就 建立 了 空间 域 图 像 平 滑 与 频 域 低 通 
滤波 之 间 对 应 关系 。 








6.5.1 理想 低 通 滤波 占 及 其 实现 





1. 理论 基础 

最 容易 想到 的 衰减 高 频 成 份 的 方法 就 是 在 一 个 称 为 “截止 频率 ”的 位 
置 “截断 "所 有 的 高 频 成 份 ， 将 图 像 频 谱 中 所 有 高 于 这 一 截止 频率 的 频谱 
成 份 设 为 0， 低 于 截止 频率 的 成 份 设 为 保持 不 变 。 能 够 达到 这 种 效果 的 
滤波 器 如 图 6.16 所 示 ， 我 们 称 之 为 理想 低 通 滤波 器 。 如 果 图 像 的 宽度 为 
M， 高 度 为 N， 那 么 理想 低 通 频 域 滤 波 器 可 形式 化 地 描述 为 


M ， Ng 
[ue a Be < Do 


H(uv}= (6-50) 


AT 


M 了 AN 7 
jo 和 + QC > Do 


其 中 Do 表示 理想 低 通 滤波 器 的 截止 频率 ， 滤 波 器 的 频率 域 原点 在 频 
详 图 像 的 中 心 处 ， 在 以 截止 频率 为 半径 的 圆 形 区域 之 内 的 滤 镜 元 系 值 全 
部 为 1， 而 该 圆 之 外 的 滤 镜 元 素 值 全 部 为 0。 理 想 低 通 小 波 占 的 频率 特性 
在 截止 频率 处 十 分 陡峭 ， 无 法 用 人 硬件 实 现 ， 这 也 是 我 们 称 之 为 理想 的 原 
因 ， 但 其 软件 编程 的 模拟 实现 较为 简单 。 

理想 低 通 滤波 器 可 在 一 定 程度 上 去 除 图 像 噪声 ， 但 由 此 带 来 的 图 像 
边缘 和 细节 的 模糊 效应 也 较为 明显 ， 其 滤波 之 后 的 处 理 效果 比较 类 似 于 
5.3.1 中 的 平均 平 请 。 实 际 上 ， 理 想 低 通 滤波 器 是 一 个 与 频谱 图 像 同 样 太 
寸 的 三 维和 矩阵 ， 通 过 将 矩阵 中 对 应 较 局 频率 的 部 分 设 为 0， 较 低频 率 的 
部 分 〈 人 靠近 中 心 ) 设 为 1， 可 在 与 频谱 图 像 相 乘 后 有 效 去 除 频 详 的 局 频 
成 份 (由 于 是 矩阵 对 应 元 系 相 乘 ， 频 谱 高 频 成 份 与 滤波 强 中 的 0 相 
乘 ) 。 其 中 0 与 1 的 交界 处 即 对 应 滤波 器 的 截止 频率 。 








中 
出 | 
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和 图 6.16 理想 低 通 滤波 器 曲面 图 


2. Matlab 实 现 

. 用 我 们 编写 的 imidealflpf 函 数 可 以 得 到 截止 频率 为 freq 的 理想 低 通 

ee 函数 的 完整 实现 如 下 ， 该 函数 被 封装 在 金 列 图 书 论坛 
Chttp:/bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ”板块 与 本 书 同名 J 

子 附件 的 “chapter6/code” 目 录 下 的 imidealflpf.m 文 件 中 。 

function out = imidealflpf(], freq) 

% imidealflpf 函 数 ”构造 理想 的 频 域 低 通 滤波 器 

9%6I 参 数 ”输入 的 灰 度 图 像 

% freq 参 数 ” 低 通 滤波 器 的 截止 频率 

% 返回 值 : out -指定 的 理想 低 通 滤波 器 

[M,N] = sizel(]); 


out = ones(M,N); 
for i=1:M 
for j=1:N 
if (sqrt(((i-M/2)2+0O-N/2)^2))>freq) 
out(i,j)=0; 
end 
end 
end 
下 面 我 们 仍 以 第 5 章 中 图 像 平 请 中 曾 使 用 过 的 归 儿 老 照 万 
baby_noise.bmp 为 例 ， 使 用 频 域 理想 低 通 滤波 器 进行 处 理 ， 相 应 的 
Matlab 代 码 如 例 6.3 所 示 。 
[ 例 6.3] 理 想 低 通 滤波 实现 。 
I = imread('../baby_noise.bmp'); % 读 入 原 图 像 
% 生成 滤 镜 
ff = imidealflpf(], 20); 
% 应 用 滤 镜 
out = imfreqgfilt(], ff); 
figure (1); 
subplot(2,2, 1); 
imshow(D); 
title(Source ); 
9% 计算 FFT 并 显示 
temp = fft2(double(])); 
temp = fftshift(temp); 
temp = log(1 + abs(temp)); 
figure (2); 
subplot(2,2, 1); 


imshow(temp, [); 
title(Source ); 

figure (1); 

subplot(2,2,2); 
imshow(out); 

title(Ideal LPF, freq=207); 
9% 计算 FFT 并 显示 

temp = fft2(out); 

temp = fftshift(temp); 
temp = log(1 + abs(temp)); 
figure (2); 

subplot(2,2,2); 
imshow(temp, [); 

title( Ideal LPF, freq=20"); 
% 生成 滤 镜 

ff = imidealflpf(]1, 40); 

% 应 用 滤 镜 

out = imfregfilt(l, ff); 
figure (1); 

subplot(2,2,3); 
imshow(out); 

title(Ideal LPF, freq=407); 
9% 计算 FFT 并 显示 

temp = fft2(out); 

temp = fftshift(temp); 
temp = log(1 + abs(temp)); 
figure (2); 


subplot(2,2,3); 
imshow(temp, [}]); 

title( Ideal LPF, freq=40"); 
% 生成 滤 镜 

ff = imidealflpf(I, 60); 

% 应 用 滤 镜 

out = imfregfilt(l, ff); 
figure (1); 

subplot(2,2,4); 
imshow(out); 

title(Ideal LPF, freq=607); 
9% 计算 FFT 并 显示 

temp = fft2(out); 

temp = fftshift(temp); 
temp = log(1 + abs(temp)); 
figure (2); 

subplot(2,2,4); 
imshow(temp, [); 

title( Ideal LPF, freq=60"); 
上 述 程序 的 运行 效果 如 图 6.17 和 图 6.18 所 示 。 


Source ldeal LPF , freq=20 ldeal LPF , freq=40 ldeal LPF , freq=B0 





Source ldeal LPF, freq=20 ldeal LPF , fed=40 ldeal LPF , fre 呈 650 


ldeal LPF , freq=20 ldeal LPF , fre 叶 如 ldeal LPF , freq=60 








A 图 6.17 理想 低 通 滤 镜 的 滤波 结果 对 比 图 


Source ldeal LPF, freq=20 ldeal LPF , fe 叶 40 ldeal LPF , freq=60 


A 图 6.18 理想 低 通 滤 镜 的 滤波 结果 频谱 对 比 图 











从 图 6.17 和 图 6.18 可 见 ， 当 截止 频率 非常 低 时 ， 只 有 非常 靠近 原点 
的 低频 成 份 能 够 通过 ， 图 像 模糊 严重 ， 和 截止 频率 越 高 ， 通 过 的 频率 成 份 
束 越 多 ， 图 像 模 糊 的 程度 越 小 ， 所 获得 的 图 像 也 就 越 接 近 原 图 像 。 但 可 
以 看 出 ， 理 想 低 通 滤 波 器 并 不 能 很 好 地 兼顾 噪声 滤 除 与 细节 保留 两 个 方 
面 ， 这 和 空域 中 采用 平均 模板 时 的 情形 比较 类 似 。 下 面 ， 我 们 将 介绍 频 
域 的 高 斯 低 通 滤波 露 ， 并 比较 它 与 理想 低 通 滤波 名 的 处 理 效 果 。 











1. 理论 基础 
高 斯 低 通 滤波 器 的 频率 域 二 维 形 式 由 下 式 给 出 。 


[(w- 艺 )2+(y- 之 )2]/2c2 

H(u,v)=€ 2 - (6-51) 

高 斯 函数 具有 相对 简单 的 形式 ， 而 且 它 的 傅立叶 变换 和 傅立叶 反 变 
换 都 是 实 蜗 斯 函数 。 为 了 简 蛙 起见， 下 面 仅 给 出 一 个 一 维 高 斯 函数 的 健 
立 叶 变 换 和 傅立叶 反 变 换 作 为 例子 ， 式 〈6-52) 告诉 我 们 一 维 高 斯 图 数 
的 傅立叶 反 变 换 和 正 变换 仍 为 高 斯 函数 ， 该 式 的 证 明 留 给 有 兴趣 的 读者 
目 己 完成 (提示 : 可 以 利用 高 斯 分 布 的 概率 密度 函数 在 定义 域 上 积分 为 





(6-52) 
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45 证 访 ? 映 


- 


了 


V2noA- 


准 差 。 
一 维 


Ae ’” EE > h(x) 


H(u) 


未 


曲线 的 书 


o 是 高 斯 





式 中 : 


如 图 6.19 所 示 。 
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A 图 6.19 


从 图 6.19 可 以 发 现 ， 当 6c 增 大 时 ，H(u 的 图 像 倾 癌 于 变 宽 ， 而 h(z) 的 
图 像 倾 回 于 变 窜 和 变 高 。 这 也 体现 了 频率 域 和 空间 域 的 对 应 关系 。 频 率 
域 滤波 右 越 罕 ， 滤 除 的 高 频 成 份 越 多 ， 图 像 束 越 平滑 (模糊 ) ; 而 在 空 
间 域 ， 对 应 的 滤波 器 束 越 守 ， 相 应 的 卷 积 模板 越 平坦 ， 平 滑 (模糊 ) 效 

我 们 在 图 6.20 中 分 别 给 出 o 取 值 为 3 和 1 时 的 频 域 二 维 高 斯 滤波 器 的 
三 维 曲 面 表 示 ， 可 以 看 出 频 域 下 的 二 维 高 斯 滤波 器 同样 具有 上 述 一 维 情 
况 时 的 特点 。 
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A 图 6.20 频 域 二 维 高 斯 泪 镜 的 曲面 表示 


2. Matlab 实 现 

根据 上 面 二 维 高 斯 低 通 滤波 峰 的 定义 ， 可 以 编写 高 斯 低 通 滤波 器 的 
生成 函数 如 下 ， 该 函数 被 封装 在 金 羽 图 书 论坛 (http://bbs.book95.com) 
的 “金鸡 图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖子 附件 
的 “chapter6/code” 目 录 下 的 imgaussflpf.m 文 件 中 。 

function out = imgaussflpf(, sigma) 

% imgaussflpf 疯 数 ”构造 频 域 高 斯 低 通 滤波 器 

% I 参数 ”输入 的 灰 度 图 像 

% sigma 参 数 ” 蜗 斯 函数 的 Sigma 参 数 





[M,N] = Size(T); 

out = ones(M,N); 

for i=1:M 

for j=1:N 
out(i,j) = exp(-((i-M/2)A2+(j-N/2)A2)/2/sigmaA2); 
end 

end 

下 面 的 例 6.4 给 出 了 针对 图 像 baby_noise.bmp，sigma 不 同 取 值 时 高 
斯 低 通 滤波 的 Matlab 程 序 。 

[ 例 6.4] 蜗 斯 低 通 滤波 实现 。 

1 = imread('../baby_noise.bmp'); % 读 入 原 图 像 

% 生成 滤 镜 

ff = imgaussflpf (1, 20); 

% 应 用 滤 镜 

out = imfregfilt(l, ff); 

figure (1); 

subplot(2,2, 1); 

imshow(D); 

title('Source'); 

% 计算 FFT 并 显示 

temp = fft2(double(])); 

temp = fftshift(temp); 

temp = log(1 + abs(temp)); 

figure (2); 

subplot(2,2,1); 

imshow(temp, [}]); 


title('Source'); 


figure (1); 

subplot(2,2,2); 

imshow(out); 

title(Gauss LPF, sigma=20'); 
9% 计算 FFT 并 显示 

temp = fft2(out); 

temp = fftshift(temp); 

temp = log(1 + abs(temp)); 
figure (2); 

subplot(2,2,2); 
imshow(temp, []); 

title(' Gauss LPF, sigma=20'); 
% 生成 滤 镜 

ff = imgaussflpf (1, 40); 

% 应 用 滤 镜 

out = imfreqfilt(I, ff); 

figure (1); 

subplot(2,2,3); 

imshow(out); 

title('Gauss LPF, sigma =40'); 
% 计算 FFT 并 显示 

temp = fft2(out); 

temp = fftshift(temp); 

temp = log(1 + abs(temp)); 
figure (2); 

subplot(2,2,3); 


imshow(temp, []); 


title(' Gauss LPF, sigma =40'); 
% 生成 滤 镜 

ff = imgaussflpf (1, 60); 

% 应 用 滤 镜 

out = imfregfilt(l, ff); 

figure (1); 

subplot(2,2,4); 

imshow(out); 

title('Gauss LPF, sigma =60'); 
% 计算 FFT 并 显示 

temp = fft2(out); 

temp = fftshift(temp); 

temp = log(1 + abs(temp)); 
figure (2); 

subplot(2,2,4); 

imshow(temp, [}]); 

title( Gauss LPF, sigma =60'"); 
上 述 程 序 的 运行 后 得 到 的 滤波 效果 如 图 6.21 所 示 。 
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A 图 6.21 高 斯 低 通 滤 镜 的 滤波 结果 对 比 图 


图 6.21 中 各 幅 图 像 所 对 应 的 频 域 图 像 如 图 6.22 所 示 。 显 然 ， 高 斯 渡 
波 吉 的 截止 频率 处 不 是 陡峭 的 。 
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A 图 6.22 高 斯 低 通 滤 镜 的 滤波 结果 频 域 对 比 图 


高 斯 低 通 涯 波 需 在 Sigma 参 数 取 40 的 时 候 可 以 较 好 地 处 理 被 高 斯 品 
声 污染 的 图 像 ， 而 相 比 于 理想 低 通 滤波 絮 而 言 ， 处 理 效 果 上 的 改进 是 显 
而 易 见 的 。 高 斯 低 通 滤波 器 在 有 效 抑制 品 声 的 同时 ， 图 像 甩 模糊 程度 更 
低 ， 对 边缘 带 来 的 混 登 程度 更 小 ， 从 而 使 高 斯 低 通 滤 波 吉 在 通 闻 情 况 下 
获得 了 比 理想 低 通 滤波 器 更 为 广泛 的 应 用 。 





图 像 锐 化 可 以 通过 有 娶 减 图 像 频 谱 中 的 低频 成 份 来 实现 ， 这 束 建 立 了 
空间 域 图 像 锐 化 与 频 域 高 通 滤 波 之 间 对 应 关系 。 





6.6.1 高 斯 高 通 滤波 器 及 其 实现 





1. 理论 基础 

从 6.5.2 小 节 高 斯 低 通 滤波 器 中 的 H(u) 图 像 ， 可 以 发 现 滤 波 器 中 心 频 
率 处 的 值 即 为 其 最 大 值 1， 如 果 需 要 做 相反 的 滤波 操作 ， 滤 除 低频 成 份 
而 留 下 高 频 成 份 ， 则 可 以 考虑 简单 地 使 用 如 下 表达 式 来 获得 一 个 高 斯 高 
通 滤波 器 。 
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H(u,v)=1-e (6-53) 


因此 ， 高 斯 蝇 通 滤波 右 的 频 域 特性 曲线 如 图 6.23 所 示 仍旧 以 一 维 
情况 为 例 ) 。 


H(u), Sigma=1 
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A 图 6.23 高 斯 局 通 滤波 器 的 频 域 特性 曲线 


2. Matlab 实 现 
根据 上 面 二 维 高 斯 高 通 滤波 器 的 定义 ， 可 以 编写 高 斯 高 通 滤 波 器 的 
生成 函数 如 下 ， 该 函数 被 封装 在 金 羽 图 书 论坛 (http://bbs.book95.com) 





的 “金鸡 图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖子 附件 
的 “chapter6/code” 目 录 下 的 imgaussfhpf.m 文 件 中 。 

function out = imgaussfhpf(, sigma) 

% imgaussfhpf 疯 数 ” ”构造 频 域 蜗 斯 高 通 滤 波 器 

% I 参 数 ”输入 的 灰 度 图 像 

% sigma 参 数 ” 蜗 斯 函数 的 Sigma 参 数 

[M,N] = sizel(1); 

out = ones(M,N); 

for i=1 . M 

for j=1 : N 
out(i,j) = 1 - exp(-((-M/2)A2+(j-N/2)A2)/2/sigmaA2); 


end 





end 

下 面 的 例 6.5 给 出 了 针对 Matlab 示 例 图 像 coins.png，sigma 取 不 同 值 
时 高 斯 高 通 滤波 的 Matlab 程 序 。 

[ 例 6.5] 蜗 斯 蜗 通 滤波 实现 。 

I = imread('coins.png'); 

% 生成 滤 镜 

ff = imgaussfhpf (1, 20); 

% 应 用 滤 镜 

out = imfregfilt(l, ff); 

figure (1); 

subplot(2,2,1); 

imshow(D); 

title('Source'); 

% 计算 FFT 并 显示 

temp = fft2(double(])); 


temp = fftshift(temp); 

temp = log(1 + abs(temp)); 
figure (2); 

subplot(2,2,1); 
imshow(temp, [}]); 
title('Source'); 

figure (1); 

subplot(2,2,2); 

imshow(out); 

title('Gauss HPF, sigma=20'); 
% 计算 FFT 并 显示 

temp = fft2(out); 

temp = fftshift(temp); 

temp = log(1 + abs(temp)); 
figure (2); 

subplot(2,2,2); 
imshow(temp, [}]); 
title(Gauss HPF, sigma=20'); 
% 生成 滤 镜 

ff = imgaussfhpf (1, 40); 

% 应 用 滤 镜 

out = imfregfilt(l, ff); 

figure (1); 

subplot(2,2,3); 

imshow(out); 

title(Gauss HPF, Sigma =40"); 
9% 计算 FFT 并 显示 


temp = fft2(out); 

temp = fftshift(temp); 

temp = log(1 + abs(temp)); 
figure (2); 

subplot(2,2,3); 

imshow(temp, []); 
title('Gauss HPF, sigma =40'); 
% 生成 滤 镜 

ff = imgaussfhpf(I, 60); 

% 应 用 滤 镜 

out = imfregfilt(l, ff); 

figure (1); 

subplot(2,2,4); 

imshow(out); 

title('Gauss HPF, sigma =60'); 
% 计算 FFT 并 显示 

temp = fft2(out); 

temp = fftshift(temp); 

temp = log(1 + abs(temp)); 
figure (2); 

subplot(2,2,4); 

imshow(temp, []); 
title('Gauss HPF, sigma =60'); 
上 述 程序 运行 后 得 到 的 滤波 效果 如 图 6.24 所 示 。 
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A 图 6.24 高 斯 局 通 滤 镜 的 滤波 结果 对 比 图 





滤波 前 后 对 应 的 频 域 图 像 如 图 6.25 所 示 。 


Source Gauss HPF, Sigma=20 Gauss HPF, Sigma=40 Gauss HPF, Sigma=60 


A 图 6.25 高 斯 高 通 滤 镜 的 滤波 结果 频 域 对 比 图 


高 斯 高 通 滤波 需 可 以 较 好 地 提取 图 像 中 的 边缘 信息 ，Sigma 参 数 取 
值 越 小 ， 边 缘 提 取 越 不 精确 ， 会 包含 越 多 的 非 边 缘 信 息 ; Sigma 参 数 取 
值 越 大 ， 边 缘 提 取 越 精确 ， 但 可 能 包含 不 完整 的 边缘 信息 。 





1. 理论 基础 
频 域 拉 普 拉 斯 算 子 的 推导 可 以 从 一 维 开 始 ， 由 傅立叶 变换 的 性 质 可 


知 


d" f(x) 
i 





FFT[ =) Ru) (6-54) 


因此 拉 普 拉 斯 算 子 的 傅立叶 变换 计算 如 下 。 


0 7 4 村 0’ f(x, y) 


FFT[ 一 一 一 一 + 一 一 一] = (jz0)” F(u, v)+(jv) Fl(u, vy) =—(u? +V” *)F(u, v) (6-55) 
Oy’ 
因此 有 下 式 成 立 。 
FFT[V” f(x,y)]=-(u? +v*)F(u,v) (6-56) 


也 即 频 域 的 拉 普 拉 斯 滤波 需 为 
H(u,v)=-(u* +V) (6-57) 


根据 频 域 图 像 频率 原点 的 平移 规律 ， 将 上 式 改写 为 
M 2 N 2 y . ry /AN Di、 B51 《人 os Fn 
本 内 一 -让 人 二 全 一 二 ] CAM 和 分 别 为 图 像 的 宽 和 高 ) (6-58) 


2. Matlab 实 现 

根据 式 〈6-58〉， 可 以 编写 拉 普 拉 斯 频 域 滤波 颖 的 生成 函数 如 下 ， 
i 函数 被 封装 在 金 羽 图 书 论坛 (http:Wbbs.book95.com) 的 “ 金 羽 图 书 与 

答疑 ?板块 与 本 书 同名 的 主题 帖子 附件 的 “chapter6/code” 目 录 下 的 

ii 中 。 

function out = imlapf(OD) 

% imlapf 函 数 ” ”构造 频 域 拉 普 拉 斯 滤波 器 

% I 参数 ”输入 的 灰 度 图 像 

[M,N] = sizel(]); 

out = ones(M,N); 

for i=1 . M 

for j=1 : N 
out(ij) = -((i-M/2)A2+(j-NV2)A2); 


end 


end 

下 面 的 例 6.6 给 出 了 对 Matlab 示 例 图 像 coins.png 进 行 频 域 拉 普 拉 斯 滤 
波 的 Matlab 程 序 。 

[ 例 6.6] 拉 普 拉 斯 滤波 实现 。 

1 = imread('coins.png'); 

ff = imlapf (1); 

out = imfregfilt(l, ff); 

figure (1); 

subplot(1,2,1); 

imshow!(]); 

title('Source'); 

temp = fft2(double(])); 

temp = fftshift(temp); 

temp = log(1 + abs(temp)); 

figure (2); 

subplot(1,2,1); 

imshow(temp, [}]); 

title('Source'); 

figure (1); 

subplot(1,2,2); 

imshow(out); 

title(Laplace Filter ); 

temp = fft2(out); 

temp = fftshift(temp); 

temp = log(1 + abs(temp)); 

figure (2); 

subplot(1,2,2); 


imshow(temp, []); 
title(Laplace Filter ); 
上 述 程序 运行 后 得 到 的 滤波 效果 如 图 6.26 所 示 。 








Laplace Filter 





A 图 6.26 拉 普 拉 斯 小 镜 的 滤波 结果 对 比 图 


得 到 的 滤波 前 后 的 频 域 图 像 如 图 6.27 所 示 。 


Source Laplace Filter 





6.5 一 6.6 节 介 绍 了 几 种 典型 的 频 域 源流 器 ， 实 现 了 频 域 下 的 低 通 和 
高 通 滤波 ， 它 们 均 可 在 空域 下 采用 平滑 和 锐 化 算 子 实现 。 而 本 节 准 备 给 
出 一 个 特别 适合 在 频 域 中 完成 的 滤波 案例 ， 即 利用 频 域 带 阻 滤波 器 消除 














图 像 中 的 周期 噪声 。 下 面 就 来 看 一 下 这 个 在 空域 中 几乎 不 可 能 完成 的 任 
务 是 如 何在 频 域 中 实现 的 。 








顾名思义 ， 所 谓 “ 币 阻 ” 束 是 阻止 频谱 中 茶 一 频带 范围 的 分 量 通 过 ， 
其 他 频率 成 份 则 不 受 影 响 。 和 常见 的 带 阻 滤 小费 有 理想 种 阻 滤波 如 和 局 斯 
市 阻 滤波 强 。 

1. 理想 市 阻 滤波 右 

理想 带 阻 滤波 器 的 表达 式 为 


|0 ,| 万 -Do 长 刺 


Hl(u,v)= 
We LID-Po> 刺 


(0-39 ) 


式 中 : Do 是 阻 竖 频带 中 心 频率 到 频率 原点 的 距离 ，W 是 阻 豆 频 融 宽 
度 ; D 是 “uvy) 点 到 频率 原点 的 距离 。 于 是 ， 理 想 带 阻 滤波 需 的 频 域 特 
性 曲面 如 图 6.28 所 示 。 
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A 图 6.28 理想 带 阻 滤波 吉 的 频 域 特性 
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2. 高 斯 带 阻 滤波 缆 
本 案例 中 使 用 了 高 斯 带 阻 滤波 器 ， 下 面 直接 给 出 高 斯 带 阻 滤波 器 的 
1 D? (uv)-Do’ P 


H(EW=1~-e” (6-60) 
式 中 : Do 是 阻塞 频带 中 心 频率 到 频率 原点 的 距离 ，W 是 阻塞 频带 宽 


度 ; DD 是 (wv) 点 到 频率 原点 的 距离 。 于 是 ， 二 维 高 斯 带 阻 滤波 器 的 频 
域 特性 曲面 如 图 6.29 所 示 。 
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和 图 6.29 高 斯 带 阻 滤波 器 的 频 域 特性 


3， 高 斯 带 阻 滤波 器 的 Matlab 实 现 

根据 高 斯 带 阻 滤波 器 的 定义 式 〈6-60) ， 可 以 编写 高 斯 带 阻 滤波 器 
的 生成 函数 如 下 ， 该 函数 被 封 汶 在 金 羽 图 书 论坛 
Chttp:/bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ”板块 与 本 书 同 名 的 主题 帖 
子 附件 的 “chapter6/code” 目 录 下 的 imgaussfbrf.m 文 件 中 。 

function out = imgaussfbrf(I, freq, width) 

% imgaussfbrf 函 数 ” 构造 频 域 高 斯 带 阻 滤波 器 

% I 参数 ”输入 的 灰 度 图 像 

% freq 参 数 ” 阻 市 中 心 频率 

% width 参数 ” 阻 融 宽度 

[M,N|] = size(TD); 

out = ones(M,N); 





fori=1 . M 
for j=1 : N 
out(i,j) = 1-exp(-0.5*((((i-MV2)A2+(j-N/2)A2)- 
freq^2)/(sqrt(i.^2+j.^2)*width)) 人 2); 


end 





带 阻 滤波 器 常用 于 处 理 含 有 周期 性 噪声 的 图 像 。 周 期 性 噪声 可 能 由 
多 种 因素 引入 ， 例 如 图 像 获 取 系 统 中 的 电子 元 件 等 。 本 案例 中 我 们 人 为 
地 生成 了 一 幅 带 有 周期 噪声 的 图 像 ， 而 后 通过 观察 分 析 其 频谱 特征 ， 选 
择 了 合适 的 高 斯 带 阻 滤波 器 进行 频 域 滤波 。 

1. 得 到 周期 噪声 图 像 

通常 可 以 使 用 正弦 平面 波 来 描绘 周期 性 噪声 。 如 下 程序 为 Matlab 示 
例 图 片 pout.tif 增 加 周期 性 噪声 。 

O = imread('‘pout.tif”); % 读 入 原 图 像 

[M,N] = size(O); 

1= O; 

for i=1:M 

for j=1:N 

1G,j)=1Gi,j)+20*sin(20*i)+20*sin(20*j); % 添 加 周期 噪声 


end 








end 
subplot(1,2,1); 
imshow(O); 


title('Source'); 


subplot(1,2,2); 

imshow(D); 

title( Added Noise ); 

添加 周期 性 噪声 前 后 的 区 别 如 图 6.30 所 示 。 
2. 频谱 分 析 

使 用 高 斯 市 阻 滤波 器 时 ， 首 先 需 要 对 欲 处 理 的 图 像 的 频谱 有 一 个 了 
。 下 面 的 命令 得 到 了 两 幅 图 像 的 频谱 。 

i_ f=fft2(D); 

i_ f=fftshift(i_f); 

i_f=abs(i_f); 

i f=log(1+i_f); 

o_f=fft2(O); 

o_f=fftshift(o_f); 

o_f=abs(o_f); 

o_f=log(1+o_f); 

figure(1); 

imshow(o_f,[]); % 得 到 图 6.31 (a) 


title('Source'); 








figure(2); 
imshow(i_f, [ ]); % 得 到 图 6.31 (b) 
title( Added Noise'); 


Source Added Noise 





A 图 6.30 添加 周期 噪声 前 后 对 比 图 


程序 的 运行 结果 如 图 6.31 所 示 。 


Source Added Noise 





(a) 原 图 像 的 频谱 (b) 加 入 周期 噪声 后 图 像 的 频谱 





(c) 高 斯 带 阻 滤波 器 (d) 图 (b) 经 (c) 中 的 滤波 器 频 域 滤波 〈 和 矩阵 对 应 元 素 相 和 滋 ) 之 后 
A 图 6.31 高 斯 市 阻 滤 镜 的 滤波 结果 频 域 对 比 图 


3. 带 阻 滤波 

观察 图 6.31 (b) ， 发 现 周期 性 图 像 的 倩 立 叶 频 谱 中 出 现 了 两 对 相 
对 于 坐标 轴 对 称 的 亮点 ， 它 们 分 别 对 应 于 图 像 中 水 平和 竖 直 方向 的 正弦 
噪声 。 我 们 构造 高 斯 带 阻 滤波 器 的 时 候 就 需要 考虑 尽 可 能 滤 除 具有 这 些 
亮点 对 应 的 频率 的 正弦 噪声 。 注 意 到 这 4 个 点 位 于 以 频谱 原点 为 中 心 ， 
以 50 为 半径 的 圆周 上 。 因 此 ， 设 置 带 阻 滤波 器 中 心 频率 为 50， 频 带宽 度 
为 5， 如 图 6.31 (c) 所 示 ， 渡 波 后 的 频 域 效 果 如 图 6.31 (d) 所 示 。 

相应 的 程序 如 下 。 


ff = imgaussfbrf(I, 50, 5); 9% 构 造 高 斯 带 阻 滤波 器 

figure, imshow(ff, []); % 得 到 图 6.31 (c) 

out = imfreqfilt(L ff); % 带 阻 滤波 

figure, imshow(out, []); % 得 到 图 6.31 (d) 

subplot(1,2,1); 

imshow!(]); 

title('Source ); 

subplot(1,2,2); 

imshow(out); 

title(Gauss Filter ); 

上 述 程序 运行 后 得 到 的 高 斯 带 阻 滤波 占 最 终 滤 波 效 果 如 图 6.32 所 
示 ， 我 们 看 到 周期 噪声 被 很 好 地 消除 ， 这 样 的 效果 在 空域 中 是 很 难 实现 
的 。 





Source Gauss Filter 





A 图 6.32 高 斯 带 阻 滤 镜 的 滤波 结果 对 比 图 





在 6.4.1 小 节 我 们 曾 探讨 了 闫 域 滤波 与 空域 滤波 之 间 的 关系 。 这 里 则 
要 更 进一步 ， 来 研究 频 域 滤波 器 与 空域 滤波 器 之 间 的 内 在 联系 。 

频 域 滤波 较 空 域 而 言 更 为 直观 ， 频 域 下 滤波 器 表达 了 一 系列 空域 处 
理 〈 平 滑 、 锐 化 等 ) 的 本 质 ， 即 对 高 于 / 低 于 某 一 特定 频率 的 灰 度 变化 
言 息 予以 滤 除 ， 而 对 其 他 的 灰 度 变化 信息 基本 保持 不 变 。 这 种 直观 性 增 
加 了 频 域 滤波 器 设计 的 合理 性 ， 使 得 我 们 更 容易 设计 出 针对 特定 问题 的 
频 域 滤 波 器 ， 就 如 在 6.7 节 中 我 们 利用 了 带 阻 滤波 器 实现 了 对 图 像 中 周 
期 噪声 的 滤 除 ， 而 想 直 接 在 空域 中 设计 出 一 个 能 够 完成 如 此 滤波 任务 的 
滤波 器 《〈 卷 积 模板 ) 是 相当 困难 的 。 

为 了 得 到 合适 的 空域 滤波 器 ， 我 们 很 自然 地 想到 可 以 首先 设计 频 域 
滤波 器 Hu vV)， 而 后 根据 卷 积 定理 式 〈(6-61)， 将 H(u, v) 反 变换 至 空域 后 
就 得 到 了 空域 中 滤波 使 用 的 卷 积 模板 h(x, y)， 从 而 解决 了 空域 滤波 器 的 
设计 难题 。 

然而 ， 直 接 反 变换 得 到 的 空域 卷 积 模板 h(x, y) 同 H(u, Vv) 等 大 ， 从 而 
与 图 像 f(x, y) 具 有 相同 的 尺寸 。 而 模板 操作 十 分 耗 时 ， 要 计算 这 样 大 的 
模板 与 图 像 的 卷 积 将 是 非常 低 效 的 。 在 第 3 章 中 我 们 使 用 的 都 是 很 小 的 
模板 (如 3x3, 5x5, 7x7 等 ) ， 因 为 这 样 的 模板 在 空域 中 才 具 有 滤波 效率 
上 的 优势 。 一 般 来 说 ， 如 果 空 域 模板 中 的 非 零 元 素数 目 小 于 132( 大 约 
13x13 见 方 )， 则 直接 在 空域 中 计算 卷 积 较为 划算 ， 否 则 直接 利用 H(u， 
V) 在 频 域 下 滤波 更 为 合适 。 

在 实际 中 我 们 发 现 ， 利 用 以 全 尺寸 的 空域 滤波 器 h(x, y) 为 指导 设计 
出 的 形状 与 之 类 似 的 小 空域 卷 积 模板 ， 同 样 可 以 取得 类 似 于 频 域 滤波 器 
H(u, Vv) 的 滤波 效果 。 这 就 为 从 频 域 出 发 ， 最 终 设 计 出 具有 实用 价值 的 空 
域 模板 提供 了 一 种 完美 的 解决 方案 。 

式 〈6-52) 给 出 的 高 斯 频 域 低 通 滤波 器 H(u) 及 与 其 构成 傅立叶 变换 
对 儿 的 空域 高 斯 模板 h(x) 正 好 印证 了 上 述 结论 。 从 图 6.19 上 来 看 ，H(u) 
越 窗 ，h(x) 就 越 宽 。 而 频 域 低 通 滤波 器 Hu 越 罕 ， 说 明 能 够 通过 的 频率 





















































越 低 ， 被 截断 的 高 频 成 份 也 就 越 多 ， 从 而 使 滤波 处 理 后 原 函 数 f(x) 变 得 
平滑 ; 而 空域 下 以 越 宽 的 模板 h(x) 与 函数 f(x) 卷 积 则 同样 会 产生 平滑 的 效 
果 。 再 进一步 以 h(x) 的 形状 为 指导 ， 就 可 以 得 到 曾 在 高 斯 平滑 中 使 用 的 
高 斯 模板 式 〈5-5) 。 
附录 

.傅立叶 级 数 的 收敛 性 

傅立叶 级 数 的 收敛 性 : 满足 犹 利 赫 里 条 件 的 周期 函数 表示 成 的 傅 里 
叶 级 数 都 收 你 。 狐 利 赫 里 条 件 如 下 。 

(1) 在 任何 周期 内 ，x(t) 须 绝对 可 积 。 

(2) 在 任 一 有 限 区 间 中 ，x(t) 只 能 取 有 限 个 最 大 值 或 最 小 值 。 

(3) 在 任何 有 限 区 间 上 ，x(D 只 能 有 有 限 个 第 一 类 间断 点 。 

开 . 传 立 叶 级 数 的 三 角形 式 和 复 指数 形式 的 转换 

















利用 欧 拉 公式 
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式 〈6-1) 可 转化 为 
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则 式 (6-62) 可 表示 为 


Do 
in2nux inN2 nx 
C0 十 ne i 


n=] 
可 将 上 式 合并 ， 得 到 傅立叶 级 数 的 复数 形式 。 
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为 求 得 系数 c ,将 式 (6-2) 代入 式 (6-63) ， 得 
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同样 的 ， 可 将 结果 合并 写 为 


1 eT/2 > 
i i 一 ITLIIT =— 一 到 让 十 RY 
号 = 寺 nd f(x)e dx (n=0,+1,+2,+3,...) 


即 傅立叶 系数 的 复数 形式 。 
式 中 : u 表 示 f(x) 的 频率 ， 即 


1 = 和 而 co = 了 = 2nu 


了. 傅立叶 级 数 复 指数 形式 和 余弦 形式 间 的 转换 


由 复 指数 形式 的 傅立叶 级 数 


站 > c en2me 
i n 


n=—0 


oD 
”in2nux i(—n)2mex 
= C0 十 ”十 C_Ae 站 


n=] 


| 0, = argtan nl 
* c,=|c,leion ， 其 中 Re(c,) 
即 c 的 虚 部 比 cj 的 虚 部 ， 为 n 次 频率 的 谐 波 的 相位 。 


人 cal=|cn| 》 而 9=-6 之 cn=|caleae 


f(x) = C0 十 3 C, | Cm ) 十 erin2maa+b )) 
n=] 
根据 欧 拉 公式 展开 2 个 复 指数 项 易 得 傅立叶 级 数 展开 的 复 指数 形 





f(x)=cot+ "2 | cn | cos(n2nux + 0,) 


n=] 


第 7 音 小 波 变换 


近年 来 ， 随 着 人 们 对 图 像 压缩 、 边 缘 和 特征 检测 以 及 纹理 分 析 的 需 
求 的 提高 ， 一 种 新 的 变换 《〈 称 为 小 小 变换 ) 悄然 出 现 。 传 立 叶 变 换 一 下 
是 变换 域 图 像 处 理 的 基石 ， 它 能 用 正弦 函数 之 和 表示 任何 分 析 图 数 ， 而 
小 波 变换 则 基于 一 些 有 限 宽 度 的 基 小 波 ， 这 些小 波 不 仅 在 频率 上 是 变化 
的 ， 而 且 具 有 有 限 的 持续 时 间 。 比 如 对 于 一 张 乐谱 ， 小 波 变换 不 仅 能 提 














供 要 演奏 的 音符 ， 而 且说 明了 何 时 演 委 等 细节 信息 。 但 是 传 立 叶 变换 只 
提供 了 音符 ， 局 部 信息 在 变换 中 丢失 。 

本 章 的 知识 与 热点 

e 多 分 辩 率 框 染 

e 分 解 与 重 构 的 实现 


e Gabor 多 分 辨 率 分 析 

e 常见 小 波 分 析 

e 高 维 小 波 

本 章 的 典型 案例 分 析 

e 基于 Daubechies 小 波 的 二 维 图 像 分 解 与 重 构 





多 分 辨 率 理 论 是 一 种 全 新 而 有 效 的 信号 处 理 与 分 析 方 法 。 正 如 其 名 
字 所 表达 的 ， 多 分 辩 率 理论 与 多 种 分 辨 京 下 的 信和 邱 (或 图 像 〉》 表 示 和 分 
析 有 关 。 其 优势 很 明显 ， 录 种 分 辩 京 下 无 法 发 现 的 特性 在 力 一 种 分 辨 率 
下 将 很 容易 被 发 现 。 本 节 将 从 多 分 辨 率 的 角度 来 审视 小 波 变换 ， 主 要 内 
容 将 集中 在 用 于 简单 介绍 多 分 辨 率 的 相关 概念 和 信和 号 〈 或 图 像 ) 的 分 解 
与 重 构 算法 。 





多 分 辨 率 分 析 又 称 为 多 尺度 分 析 ， 是 小 波 分 析 中 的 重要 部 分 ， 它 将 
多 种 学 科 的 搁 术 有 效 地 统一 在 一 起 ， 如 信号 处 理 的 子 带 编 码 、 数 字 语 首 
识别 的 积分 镜像 过 小 以 及 金字 塔 图 像 处 理 。 多 分 辨 率 分 析 的 作用 是 将 信 
号 分 解 成 不 同 空间 的 部 分 。 另 外 ， 它 也 提供 了 一 种 构造 小 波 的 统一 杠 
架 。 在 观察 图 像 时 ， 对 于 不 同 大 小 的 物体 ， 往 往 采 用 不 同 的 分 辨 座 ， 乔 
物体 不 仅 扩 寸 有 大 有 人 小， 而且 对 比 有 强 有 弱 ， 则 采用 多 分 辨 率 进 行 分 析 
就 凸显 出 一 定 的 优势 。 

例如 ， 地 图 通 利 以 不 同 太 度 描 得 ， 一 幅 地 图 的 尺度 是 地 域 实 际 大 小 
与 它 在 地 图 上 的 表示 的 比值 。 在 地 球 仪 上 ， 大 陆 和 海洋 等 主要 特征 是 可 
见 的， 而 像 城市 街道 这 样 的 细节 信息 就 很 难 辨识 了 ;， 而 在 较 小 的 尺度 
上 上， 细节 变 得 可 见 而 较 大 特征 却 不 见 了 。 因 此 ， 为 了 能 够 从 当地 寻 引 到 
一 个 较 远 距离 处 的 地 点 ， 就 需要 一 套用 不 同 矿 度 绘制 的 地 图 。 如 图 7.1 
所 示 ， 在 中 国 地 图 上 无 法 看 到 详细 的 北京 的 街道 ， 而 在 分 辨 率 较 高 北京 
地 图 上 ， 束 能 真切 地 看 到 北 泵 的 各 个 街道 。 这 束 是 小 波多 分 辩 率 的 优越 
性 的 体现 。 
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(a) 中国 地 图 (部 分 地 图 ) 只 供 参考 用 (b) 北京 街道 地 图 


A 图 7.1 中 国 地 图 与 北京 街道 地 图 


小 波 变换 正 是 沿 着 多 分 辨 率 这 条 线 发 展 起 来 的 。 与 时 域 分 析 一 样 ， 
一 个 信号 用 一 个 二 维 空间 表示 ， 不 过 这 里 的 纵 轴 是 尺度 而 不 是 频率 ， 如 
图 7.2 所 示 。 根 据 时 频 域 分 析 ， 一 个 信号 的 每 个 瞬 态 分 量 映射 到 时 间 - 频 
率 平面 上 的 位 置 对 应 于 分 量 主要 频 来 和 发 生 的 时 间 |， 
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(a) 
A 图 7.2 时 域 与 频 域 图 


考虑 图 7.3 所 示 的 乐谱 ， 它 可 以 看 做 一 个 描绘 了 二 维 的 时 频 空间 。 
频率 〈 音 高 ) 从 层次 的 底部 癌 上 增加 ， 而 时 间 《〈 以 节拍 来 测度 ) 则 辐 右 


发 展 。 乐 章 中 每 一 个 首 符 对 应 于 一 个 将 出 现在 这 首 歌 的 演出 记录 中 小 波 
分 量 〈 音 调 狼友) 。 每 一 个 小 波 持 续 宽 上 度 都 由 音符 的 类 型 来 编码 ， 而 不 
古 由 它 的 水 平 延伸 来 编码 。 假 设 要 分 析 一 次 音乐 演出 的 记录 ， 并 写 出 相 
应 的 乐谱 ， 这 个 过 程 可 以 次 是 小 波 变 换 。 同 样 ， 音 乐 家 一 首 歌 的 演奏 录 
首 可 看 作 是 一 种 小 波 逆 变换 ， 因 为 它 是 用 时 频 来 重 构 信号 的 。 




















A 图 7.3 乐谱 看 出 时 频 图 


1988 年 ，Mallat 提出 了 多 分 辨认 分 析 的 概念 ， 从 空间 的 概念 上 形象 
地 说 明了 小 波 的 多 分 辩 率 特性 。 在 介绍 多 分 辨 率 分 析 之 前 ， 我 们 先 来 了 
解 一 下 关于 小 波 变 换 的 一 些 基 本 概念 ， 这 对 于 我 们 理解 多 分 辩 紊 分析 有 
重要 作用 。 

首先 需要 介绍 一 下 与 小 波 分 析 有 关 的 泛 函 分 析 的 基础 知识 。 泛 函 分 
析 是 20 世 纪 初 发展 起 来 的 一 个 重要 数学 分 文 ， 其 中 一 个 非常 重要 的 基本 
概念 束 是 函数 空间 。 函 数 空间 束 古 由 函数 构成 的 集合 。 第 用 的 函数 空间 
包括 距离 空间 、 线 性 空间 、 线 性 赋 范 空间 、 巴 拿 赫 空间 以 及 希 尔 伯 特 空 
间 ， 在 此 我 们 束 不 一 一 详 述 了 ， 主 要 以 线性 空间 为 例 人 简单 说 明 。 

设 X 为 一 非 空 集合 ， 奉 在 X 中 规定 了 线性 运算 ， 即 元 素 的 加 法 和 元 
素 的 数 乘 运 算 ， 并 满足 相应 的 加 法 或 数 乘 的 结合 律 及 分 配 律 ， 则 称 X 
为 一 线性 空间 或 癌 量 空间 。 对 于 线性 空间 的 任 一 回 量 我 们 用 范 数 来 定义 
其 长 度 。 

介绍 了 函数 空间 的 概 仿 后， 下面 我 们 介绍 函数 空间 的 基 及 函数 展开 











的 问题 。 在 构造 小 波 函 数 和 进行 小 波 变 换 的 分 析 、 处 理 过 程 中 ， 我 们 会 
遇 到 正 交 基 概 念 问题 。 所 以 需要 介绍 这 些 重要 概念 。 

所 谓 基 ， 就 是 由 函数 序列 组 成 的 空间 。 设 ek(D 为 一 函数 序列 ，X 表 
示 ek(D 所 有 可 能 的 线性 组 合 构成 的 集合 ， 即 


天 ={2 arer(D) |t,ar e Rk eZ)} (的 
大 

称 X 为 序列 e(t) 组 成 的 线性 空间 ， 即 X=span{e.}， 也 即 对 任意 g(t)， 
可 以 表达 为 


g(t) = Yarer(t) (7-2) 
k 


如 果 @(t) 线 性 无 关 ， 对 任意 gD， 式 〈7-2) 中 的 系数 a 取 唯 一 的 
值 ， 这 时 ， 我 们 称 {ey(t)h sz 为 空间 X 的 一 个 基底 。 

设 x,y 为 内 积 空 间 X 的 两 个 元 素 ， 寿 (Xx,y)=0， 则 称 x,y 正 交 。 辱 XX 中 的 
元 系列 {fel} 满 足 





|0 mn 


(em, en ) pe l 


(7-3) 
m= 

则 称 {ex} 为 X 中 的 标准 正 交 系 。 

在 小 波 分 析 中 ， 多 分 辨 率 分 析 《〈《 我 们 在 以 后 将 会 详细 提 到 ) 的 核心 
就 是 Wi; 空间 的 正 交 归 一 基 gj(b,bk (DkEzjsz (为 整数 位 移 ，j 为 分 
辨 京 的 级 数 ) 。 只 要 它们 已 知 ， 就 可 以 将 待 分 析 函 数 x(0) 投 影 到 不 同 分 
状 率 的 函数 空间 进行 分 机。 在 了 解 了 这 些 概念 后 ， 我 们 引入 小 波 的 概 


人 O 


在 小 波 分 析 中 ， 主 要 讨论 的 函数 空间 为 L* (R)。L? (R) 指 R 上 平方 可 
积 函 数 构成 的 函数 空间 ， 即 


fe (RS) 7AOPd<ta 
R 


若 f(t)eL?(R)， 则 称 f (为 能 量 有 限 的 信号 。L? (R) 也 常 称 为 能 量 
有 限 的 信号 空间 。 
令 q(t)eL? (R)，Fourier 变 换 纵 W) 满 足 允许 条 件 
ci =| $0 , ng 
Iwl 称 q(t ) 为 一 个 基本 小 波 或 母 小 波 。 可 以 证 明 ， 
小 波 一 定 满足 这 样 的 性 质 。 


|__#(Ddr = 


这 也 是 我 们 称 之 为 “小 波 ” 的 意义 。 
将 母 函 数 经 过 伸缩 和 平移 后 ， 就 可 以 得 到 小 波 序列 为 


] 


la 





Gislt}= WE eR,az 0) C74) 
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任意 的 函数 f(t)eL? (R) 的 连续 小 波 变换 为 





Wr(a,b)={f,Ga.s)= rl MA (sD 


f(D) =G(—) 
记 4 ,可 以 看 出 ， 连 续 小 波 变 换 就 是 信和 号 与 小 波 函 数 的 郑 


积 。 小 波 函 数 事实 上 束 是 我 们 信号 处 理 的 一 个 滤波 右 。 其 逆 变 换 为 


f(t)= S | [=w i (7-6) 
C orRG a 


小 波 变 换 的 实质 在 于 将 L? (R) 空 间 中 的 任意 函数 f (0 表示 成 为 其 在 具 
有 不 同 伸缩 因 了 于 和 平移 因 了 于 上 得 投影 的 侣 加 。 与 傅立叶 变换 《 仅 将 ff(t) 
投影 到 频率 域 ) 不 同 的 是 ， 小 波 变 换 将 一 维 时 域 函 数 映射 到 二 维 “ 时 间 - 
尺度 ” 域 上 ， 因 此 f(t ) 在 小 波 基 上 得 展开 具有 多 分 辨 率 的 特性 。 通 过 调 
整 伸缩 因子 和 平移 因子 ， 可 以 得 到 具有 不 同时 频 冤 度 的 小 波 以 匹配 原始 
言 号 的 任意 位 置 ， 达 到 对 信号 的 时 频 局 部 化 分 析 的 目的 。 

我 们 不 妨 做 个 粗略 的 比喻 来 解释 小 波 变 换 的 作用 。 我 们 用 镜头 观察 
目标 f(t ) ，q(t ) 代 表 镜 类 所 起 的 作用 (如 滤波 或 郑 积 ) 。b 相 当 于 使 镜 
头 相 对 于 目标 平行 移动 ，t 的 作用 相当 于 镜头 品目 标 推 进 或 远离 。 由 此 
可 见 ，b 仅 仅 影 响 时 频 窗口 在 相 平 面 时 间 轴 上 的 位 置 ， 而 t 不 仅 影响 时 频 
窗口 在 频率 轴 上 的 位 置 ， 也 影响 窗口 的 形状 。 这 样 小 波 变换 对 不 同 的 频 
率 在 时 域 上 得 取样 步 长 是 可 调 市 的 ， 也 就 是 多 分 辨 紊 。 

在 式 〈7-5) 中 ， 对 参数 a、b 进 行 展开 后 ， 就 得 到 了 任何 时 刻 任 意 
精度 的 频谱 ， 但 是 对 实际 计算 来 讲 ， 计 算 量 太 大 ， 所 以 考虑 将 其 离散 
化 

离散 小 流 函 数 表示 为 






































pin (1) aog(ast 2 kbo ) ( ig ) 
离散 小 波 系 数 表示 为 
Wx(D= | fp (Dd a 


选取 %o =7,bo=1， 则 称 为 二 进 小 波 。 

从 理论 上 可 以 证 明 ， 将 连续 小 波 变换 离散 成 离散 小 波 变 换 ， 信 号 的 
基本 信息 并 不 会 丢失 。 相 反 ， 由 于 小 波 基 函 数 的 正 交 性 ， 使 得 小 波 空间 
中 两 点 之 间 因 宛 余 度 造成 的 关联 得 以 消除 ， 同 时 ， 由 于 正 交 性 ， 使 得 计 
算 的 误差 更 小 ， 变 换 结 果 时 - 频 函 数 更 能 反映 信号 本 身 的 性 质 。 











为 了 更 好 地 理解 小 波 变 换 ， 我 们 将 其 与 第 6 章 的 傅立叶 变换 对 比 ， 
可 以 得 出 以 下 结论 。 

(1) 傅立叶 变换 是 把 能 量 有 限 的 信号 f(0) 分 解 到 以 {ejWi} 为 正 交 基 的 
空间 上 去 ， 小 小 变 换 的 实质 是 把 该 信号 分解 到 Wj 所 构成 的 空间 上 去 。 

(2) 傅立叶 变换 用 到 的 基本 函数 只 有 sin(wb， 而 小 波 函 数 具 有 不 
唯一 性 。 
(3) 在 频 域 中 ， 傅 立 叶 变 换 具 有 较 好 的 局 部 化 能 力 ， 特 别 是 对 于 
频率 成 分 比较 简单 的 确定 性 信号 ， 传 立 叶 变换 很 容易 把 信和 号 变 为 各 频率 
成 分 的 登 加 和 的 形式 ; 但 在 时 域 中 ， 侍 里 叶 变 换 没有 局 部 化 的 能 

(4) 小 波 分 析 中 ， 斥 度 a 的 值 越 小 相当 于 传 立 叶 变 换 中 w 的 值 越 











小 。 

多 分 辩 率 分 析 理 论 是 建立 在 函数 空间 概念 上 的 。 数 学 中 ， 函 数 空间 
是 从 集合 X 到 集合 Y 的 给 定 种 类 的 函数 的 集合 。 将 平方 可 积 的 函数 
(DEL“ (R) 看 成 是 某 一 逐 级 示 近 的 极限 情况 ， 每 级 逼近 都 是 用 茶 一 低 通 
平滑 函数 q(t) 对 (做 平滑 的 结 采 ， 在 逐 级 双 近 时 平滑 函数 q(t) 也 做 逐 级 
伸缩， 这 惑 是 “多 分 辨 率 "， 即 用 不 同 的 分 辨 率 来 逐 级 逼近 符 分 析 函 数 f 
(t)。 

将 空间 做 逐 级 二 分 解 产生 一 组 逐 级 包含 的 子 空间 。 








“Wi=V@W,V = OW, ;i = OW (7-9) 





j 是 从 -%m 到 +% 的 整数 ，j 值 越 小 空间 越 大 ， 记 号 “@” 表 示 子 空间 之 和 
关系 。 当 j=4 时 ， 如 图 7.4 所 示 。 





A 图 7.4 函数 空间 的 划分 








由 图 7.4 可 见 ， 空 间 剖 分 是 完整 的 ， 即 当 j -oo 时 ，v ,L? (R), 包 仿 





整个 平方 可 积 的 实 变 函数 空间 。 


J; =L (8) (7-10) 


jez 


当 j- +o 时 ，w 一 0, 即 空间 最 终 剖 分 到 空 集 为 止 。 


{| = {0} CFF 





这 种 剖 分 方式 使 得 空间 v 与 空间 W 正 交 ， 各 个 Wi 之 间 也 正 交 ， 即 
ViliWWliW, ji Cr 


综 上 可 知 ， 多 分 闪 率 分 析 即 是 指 一 串 翌 套 式 子 空间 逼近 序列 {vyez， 


它 满足 下 列 要 求 。 


(1) 一 臻 单调 性 :对 于 任意 的 jEZ, 有 Vj Sv;。 

| Be LJ ry 

(2) 通 近 性 : je2 jeZ 

(3) 伸缩 性 ，f(t) Ev; 邻 f(2it) Ee vo, 伸缩 ' 性 体现 了 尺度 的 变化 ， 逼 近 
正 交 小 波 函 数 的 变化 和 空间 的 变化 具有 一 致 性 。 

(4) 平移 不 变性 :对 任意 keE2Z, 有 9;(27?2t)Ev 志 9(272t-k)ev (其 
中 g(t) 称 为 尺度 函数 (后 面 详细 介绍 ) 。) 

(5) 正 交 基 存 在 性 : 存在 q(t) Ee vo， 使 得 {0(”2%t-k)IkSE2Z} 构 成 v; 
的 正 交 基 。 

如 果 对 于 满足 多 分 辨 率 分 析 的 一 系列 财 子 空间 {vjjjszjx(D 是 由 
{Vijjez 产 生 的 尺度 函数 ， 用 $xQ 作 小 波 ， 它 的 补 空间 为 
{WjjjezsV=Vji1 旬 Wi+y 则 {Wij}jez 构 成 小 波 空 间 。 任 意 信 己 f (t 
)eL2? CR) 可 用 多 } 辨 率 分 析 公 式 表示 为 














f(D)= >》 cadir (D+ 2, 2 dirpir(t) (7-13) 
大 Fi 


式 中 : j 是 任意 开始 尺度 ，cjk 通 常 称 为 近似 值 或 尺度 系数 ，Dik 称 
为 细节 或 小 波 系数 。 这 是 因为 式 〈7-13) 的 第 一 个 和 式 用 尺度 函数 提供 
了 f(x%) 在 尺度 j 的 近似 (除非 f (x)ev;， 此 时 为 精确 值 )。 对 于 第 二 个 
和 式 中 每 个 较 高 尺度 的 j， 更 细 分 辩 率 的 函数 被 添加 到 近似 中 ， 以 获得 
细节 的 增加 。 如 果 展 开 函 数 形 成 了 一 个 正 交 基 或 紧 框 架 ， 则 展开 系数 计 
算 如 下 。 








pd op eri my 


dk =(f (x),974(0))= | f (Wp (dr (7-15) 





如 果 展 开 函 数 是 双 正 交 基 的 一 部 分 ， 上 式 中 的 pg 和 g 项 要 分 别 由 它们 


的 对 侦 函 数 和 代 莹 。 

在 上 述 多 分 辨 率 分析 的 概念 介绍 中 ， 我 们 提 到 了 尺度 函数 和 小 波 函 
数 的 概念 。 怎 样 理解 这 两 者 的 关系 ， 我 们 来 举 个 例子 。 事 实 上 ， 可 以 假 
设 在 三 维 空间 里 表达 一 个 同 量 ， 则 需要 建立 一 个 三 维 的 坐标 系 ， 只 要 坐 
标 系 建立 ， 我 们 就 可 以 用 3 个 点 〈xyz) 来 简单 地 表示 一 个 向 量 ， 同 
样 ， 在 一 个 信号 我 们 设 为 f(t)， 要 想 表 示 它 ， 我 们 可 以 用 一 个 个 正 交 的 
简单 函数 来 构建 坐标 系 ， 然 后 将 fb 映射 在 这 些 简单 的 正 交 函数 上 ， 产 
生 一 个 系数 ， 这 些 系数 我 们 就 可 以 等 同 于 (xyz)， 也 就 是 说 利用 相互 正 
交 的 简单 函数 ， 构 建 一 个 表达 信号 的 空间 “坐标 系 ?”， 然 后 束 可 以 用 这 些 
系数 和 正 交 函数 来 表示 f(t)。 

在 小 波 分 析 中 ， 这 个 构建 坐标 系 的 函数 就 是 小 波 函 数 ， 但 是 在 小 波 
函数 来 表示 一 个 信号 的 时 候 ， 它 其 实 是 将 信号 映射 在 了 时 频 平 面 内 的 ， 
所 以 在 实现 过 程 中 需要 一 个 频 域 的 奔 座 和 平台 ， 来 让 信号 f(t) 与 之 做 映 
财 后 是 在 一 定 的 频率 分 辩 毒 上 进行 的 ， 这 个 起 到 愤 座 的 函数 束 是 尺度 函 
数 ， 在 尺度 函数 的 平台 下 对 频率 的 分 析 ， 或 者 说 对 信号 的 f(t) 的 表达 就 
古 小 波 函 数 的 作用 了 。 在 渡 波 实现 中 ， 低 频 滤 波 就 相当 于 尺度 函数 的 作 
用 ， 小 小 函 数 的 实现 就 是 高 频 沽 波 器 的 使 用 。 

[ 例 7.1]y= x? 的 哈 尔 小 波 序 列 展开 。 

考虑 图 7.5〈a) 所 示 简 单 函数 


























[x ogx<] 
4 = 
[lo ”其 他 
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hz) = pe 
使 用 哈 尔 尺度 函数 lo ”其 他 
哈 尔 小 波 函数 如 下 


] 0<x<0.5 
p(x)=1 -1 0.5<x<l 
0 其 他 


根据 式 〈《7-6) 和 式 《〈7-7) 计算 下 列 展开 系数 。 


8 5 ] 
co(0) = | x boo(x)dx = | bb 3 
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04 3106 8 1 
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A 图 7.5 使 用 哈 尔 小 波 将 y= 
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0 02 04 06 08 1 
(d) 

1 

37148 
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19/48 
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(f) 

x2 的 小 波 序 列 展开 


EE 
x?dx—| x“dx=—— 
0.5 4 


di(0)=| 6 ?ooCoOdr=| ; V2dr-[ .x “22dx=— 2 


L 0.5 
do(0)=| x poo dr =| 


UV 


dD)=] repr=) : eV2dre—[ pi 


将 这 些 值 带 入 式 〈7-5) ， 可 以 得 到 如 下 小 波 序列 展开 。 


] py 
= Lpo0o] + poly)- dla 
-一 ”一 
Wo Wo A 


WV=Vo@ Wo 
-W@W=W0@® Wo@® Wi 


上 述 展 开 中 的 第 一 项 用 co(0) 生 成 待 展 开 函 数 的 vo 子 空间 近似 值 。 访 
近似 值 是 原始 函数 的 平均 值 。 第 二 项 使 用 Du(0) 通 过 从 Wo 子 空间 添加 一 
级 细节 来 修饰 该 近似 值 。 其 他 级 别 的 细节 由 了 于 空间 Wi 的 系数 Di(0) 和 

D1(1) 给 出 。 此 时 ， 展 开 函 数 现在 已 经 接近 原始 函数 了 。 越 高 的 尺度 
《或 细节 的 级 别 越 高 ) 被 车 加 ， 近 似 值 越 变 得 接近 函数 的 精确 表示 ， 它 
的 极限 是 j ~ oo。 





7.1.2 分 解 与 重 构 的 实现 


根据 7.1.1 节 的 论述 ， 我 们 可 以 知道 ， 在 理解 多 分 辨 率 分 析 时 ， 需 要 
把 握 一 个 要 后 : 分 解 的 最 终 目 的 是 力求 构造 一 个 在 频率 上 局 度 副 近 的 
L* (R) 空 间 的 正 交 小 波 基 ， 这 些 频 率 分 辨 率 不 同 的 正 交 小 波 基 相 当 于 带 

宽 各 寞 的 带 通 滤波 器 。 男 外 ， 多 分 辩 率 分 析 只 对 低频 空间 作 进 一 步 分 











解 ， 使 频率 的 分 辨 率 越 来 越 高 。 
根据 7.1.1 节 中 的 式 〈7-5) ， 其 中 的 剩余 系数 ck 和 人 小波 系 数 Die 利 


用 分 解 重 构 公 式 ， 得 


Cjk = > ho(m— 2k)c jim 


ml 


dj x 一 >》 hh (m —2k )es l,m 


m 





(7-16) 


式 《7-5) 中 等 号 右边 第 一 部 分 是 f(t) 在 尺度 空间 vi 的 投影 ， 是 f(t) 
的 平滑 近似 ;第 二 部 分 是 f (t) 在 小 波 空 间 Wj 的 投影 ， 是 对 ft ) 的 细 补 
充 。 式 《7-16) 是 小 波 分 解 系数 的 递 推 计 算 公式 ， 式 中 Hod9 和 Hi(g 分 
别 为 低 通 和 高 通 数字 滤波 器 单位 取样 啊 应 。 

要 将 信号 由 N 水 平分 解 到 N-M 水 平 ， 则 可 得 分 解 过 程 为 








2 dN- dw-_» 7 己 GdN_M 


CN 一 -一 > CN-l -一世 CN 2 —> ... 一 和 Cv-1 


对 于 任意 函数 f(DEv_1， 将 其 分 解 一 次 投影 到 vj、Wi 空 间 ， 即 可 分 
别 得 到 剩余 系数 oj 和 小 波 系数 Dj 重建 原始 信号 ， 下 式 是 变换 系数 的 重 


建 公式 。 


Cj=lm = Deirho(m 二 2k) 二 > 二 hi(m-— 2k) GTB 
大 天 


形象 表示 此 重 构 过 程 为 


GdN_V S GdN-M-l SS 和 dN-i W 


CN-Mp Cu ... > C+» CN 


[ 例 7.2] 信号 分 解 与 重 构 的 Matlab 实 现 ， 通 过 对 由 两 个 正弦 信号 铸 加 
的 信号 进行 分 解 重 构 ， 我 们 可 以 了 解 基本 信号 分 解 与 重 构 的 过 程 怎 样 用 
Matlab 实 现 。 

9% 信 号 函数 定义 

% 1. 正 弦 波 定义 

位 =50; ”% 频率 1 

f2=100;”% 频率 2 

fs=2*(f1+f2); 9% 采样 频率 

Ts=1/fs; 9% 采样 间隔 

N=120; 9% 采样 点 数 

D=]1:N; 

e@=sin(2*pi*f1*n*Ts)+sin(2*pi*f2*n*Ts); % 信号 函数 

9% 2 小 波 滤波 器 谱 分 析 

h=wfilters('db30',1);”% 低 通 

g=wfilters('db30','h"); 9%6 高 通 

h=[h,zeros(1,N-length(h))]; % 补 零 (圆周 郑 积 ， 且 增 大 分 辩 率 便于 
观察 ) 

g=[g&zeros(1,N-length(g))]; 9% 补 零 〈 圆 周 卷 积 ， 且 增 大 分 辩 率 便于 
观察 ) 

% 3 MALLAT 分 解 算 法 (圆周 卷 积 的 快速 傅立叶 变换 实现 ) 

sig1=ifft(fft(y).*fft(h));”% 低 通 (低频 分 量 ) 

sig2=ifft(fft(y).*fft(g));”% 高 通 (高 频 分 量 ) 

%4 MALLAT 重 构 算法 














Sig1=dyaddown(sig1); 
sig2=dyaddown(sig2); 
sigl=dyadup(sig1); 
sig2=dyadup(sig2); 
sigl=sig1(1,[1:N]); 
sig2=sig2(1,[1:N]); 
% 重 构 低 通 
% 重 构 高 通 


hr=h(end:-1:1); 
gr=g(end:-1:1); 
hr=circshift(hr',1)'; 
gr=circshift(gr',1)'; 


sigl=ifft(fft(hr).*fft(sig1)); 
sig2=ifft(fft(gr).*fft(sig2)); 


% 2 抽取 

% 2 抽取 

% 2 插值 

% 2 插值 

% 去 挥 最 后 一 个 零 
% 去 挥 最 后 一 个 零 


% 位 置 调整 圆周 右 移 一 位 
% 位 置 调整 圆周 右 移 一 位 
% 低频 
% 高 频 











sig=sigl+sig2; 9% 源 信号 
程序 运行 结果 如 图 7.6 所 示 。 从 图 7.6 中 可 以 看 出 原始 信号 即 是 两 个 


正弦 信号 


的 登 加 ， 在 经 过 高 通 和 低 通 分 解 后 ， 得 到 两 个 蜗 频 和 低频 的 信 


号 Sigl 与 sig2; 再 经 过 重 构 后 ， 两 部 分 义 重 构 为 原始 信号 
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7.1.3 : 理 中 分 解 与 重 构 的 实现 


前 面 讲述 了 一 维 信号 的 多 分 辨 率 分 解 与 合成 算法 ， 对 于 二 维 的 图 像 
信号 ， 我 们 可 以 从 滤波 器 的 角度 来 理解 多 分 辨 率 分 析 。 首 先 对 图 像 
先 * 逐 行 ” 作 一 维 小 波 变换 ， 分 解 为 低 通 滤波 L 和 高 通 滤波 H 两 个 分 量 ， 
再 “ 逐 列 ” 作 一 维 小 波 变换 ， 分 解 为 LL、LH、HL、HH 4 个 分 量 。L 和 H 
分 别 表示 低 通 和 高 通 滤波 输出 。 

相应 的 ， 二 维 尺度 函数 q(x, y)=9(x)q9(y)。 

二 维 小 波 函 数 有 3 个 ， 对 应 不 同方 同上 的 高 / 低 通 滤 波 特性 。 








|? (x,y) = @(x)o(y), LH 
97 (x,y) = 9(x)9(y), HL 
[ge y)= oo(x)p(y), HH 


分 解 的 结果 ， ne 
号 。 所 以 每 < 上 ?一 层 ， 近 似 图 像 分 解 为 4 个 分 量 。 若 原 图 像 为 An, 分 解 总 
导数 为 ， 则 共有 3J+1 幅 了 图 像 . 分解 ee 程 可 以 表示 为 

分 解 : Ajif -~ (Af(D; faBEf sD )) 

a Mf Df D+ DI + Df 

下 图 给 出 图 像 信号 的 快速 小 波 分 解 图 。 





A 焉 


Di;f HL 


Dif HH 





A 图 7.7 图 像 的 快速 小 波 分 解 框 图 


[ 例 7.3] 图 像 处 理 中 小 波 变 换 的 应 用 

图 7.4 (a) 所 示 为 测试 图 像 ， 通 过 这 幅 图 片 我 们 可 以 看 出 二 维 小 小 
变换 的 方向 敏感 性 和 边缘 检测 的 有 效 性 。 程 序 中 利用 小 波 工具 箱 中 的 函 
数 ， 简 便 快 捷 。 

f=imread('D:\1.jpg"); % 读 入 一 幅 图 

imshow(f); 9% 显 示 读 入 的 灰 度 图 

[c,s]=wavefast(f,1,'sym4"); ”% 利 用 ‘sym4 小 波 作 快速 小 波 变 换 

figure;wave2gray(cs,-6); ”9% 利 用 小 波 工 具 箱 的 函数 显示 变换 后 灰 度 


[ncy]=wavecut(a,cs); 9% 利 用 小 波 工具 箱 的 函数 将 近似 系数 置 0 

figure; wave2gray(nc,s,-6); 

edges=abs(waveback(nc,s,'sym4'"));。% 边 缘 图 像 的 重 构 

figure; imshow(mat2gray(edges)); 

图 7.4 (a) 所 示 的 单 尺 度 小 波 变 换 的 水 平 、 垂 直 、 对 角 线 的 方向 性 
在 图 7.4(b》〉 中 可 清楚 地 看 到 。 注 意 ， 原 图 像 的 水 平 边缘 出 现在 图 





7.4 (b) 所 示 的 右上 象限 的 水 平 细节 系数 中 。 对 于 网 像 的 垂直 边缘 ， 可 
以 在 左下 象限 的 垂直 细节 系数 中 类 似 地 确定 。 要 将 这 些 信 息 合并 成 一 幅 
边缘 图 像 ， 我 们 可 以 简单 地 把 生成 的 变换 的 近似 系数 设 为 零 ， 计 算 它 的 
反 变 换 ， 再 对 其 取 绝 对 值 。 修 改过 的 变换 和 得 到 的 边缘 图 像 分 别 显示 在 
图 7.4(c) 和 图 7.4(d)〉 中 。 类 似 的 过 程 可 用 于 隔离 垂直 边缘 或 水 平 边 
缘 。 
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Ce) 将 所 有 近似 系数 设置 为 0 的 变换 (dy 重 构 得 到 的 边缘 图 像 
A 图 7.8 图 像 处 理 中 边缘 检测 中 的 小 波 变 换 


[ 例 7.4] 利用 小 波 分 析 对 图 像 去 吕 
装 入 一 幅 图 像 ， 并 对 其 添加 蝶 声 ， 利 用 小 波 对 添加 噪声 后 的 图 像 进 


行 小 波 分 解 ， 并 观察 滤波 效果 。 
程序 如 下 。 
% 装 入 图 像 
load tire 
9% 下 面 进行 噪声 的 产生 
init=3718025452; 
rand('seed,',init); 
Xnoise=X+18*(rand(size(X))); 
% 显 示 原 始 图 像 及 它 的 含 噪声 的 图 像 
colormap(map); 
subplot(2,2,1);image(wcodemat(X,192)); 
title(' 原 始 图 像 ") 


axis square 





subplot(2,2,2);image(wcodemat(Xnoise,192)); 
title( 含 噪声 的 图 像 ); 

axis Square 

9% 用 sym5 小 波 对 图 像 信号 进行 二 层 的 小 波 分 解 
[c,s]=wavedec2(X,2,'sym5'); 

% 下 面 进行 图 像 的 去 品 处 理 

% 使 用 ddencmp 函 数 来 计算 去 噪 的 默认 浆 值 和 燃 标 准 
% 使 用 wdencmp 函 数 来 实现 图 像 的 压缩 
[thr,sorh,keepappl]=ddencmp('den',"wv',Xnoise); 
[Xdenoise,cxc,lxc,perf0,per{fl2]=wdencmp('gbl',c,s,'sym®5',2,thr,sorh,keep 
% 显 示 去 噪 后 的 图 像 
subplot(2,2,3);image(Xdenoise); 

title( 去 噪 后 的 图 像 ); 


axis Square 


运行 结果 如 图 7.9 所 示 ， 对 比 原 始 图 像 和 去 品 后 的 图 像 ， 利 用 小 波 
去 噪 后 ， 图 像 比 原 图 像 更 党 一 些 。 





50 100 150 200 50 100 150 200 50 100 150 200 
(a) 原始 图 像 (b) 含 噪 声 的 图 像 (c) 去 噪 后 的 图 像 


4 图 7.9 小 波 分 析 用 于 图 像 去 品 


[ 例 7.5] 小 波 变 换 用 于 图 像 压缩 

装 入 一 幅 图 像 ， 使 用 哈 尔 小 波 对 图 像 进 行 三 层 分 解 ， 利 用 函数 
wdcbm 获 取 压 缩 阔 值 ， 函 数 wdencmp 用 于 对 信号 进行 压缩 。 将 图 像 分 解 
为 低频 信息 和 高 频 信 息 ， 图 像 的 主要 成 分 包含 在 低频 信息 中 ， 对 低频 信 
居 进 行 两 次 小 波 分 解 ， 并 改变 图 像 的 大 小 进行 压缩 ， 分 别 获取 两 次 压缩 
后 的 图 像 。 

程序 如 下 。 

% 装 载 信和 号 

load nelec; 

indx=1:1024; 

x=nelec(indx); 

% 用 小 波 haar 对 信号 进行 三 层 分 解 

[c,l]=wavedec(x,3,'haar'); 

alpha=1.5; 

% 获取 信号 压缩 的 阔 值 

[thr,nkeep]=wdcbm(c,l,alpha); 

% 对 信号 进行 压缩 

















[xd,cxd,Jxd,perf0,perfl2]=wdencmp(lvd ,cl haar,3,thr,s); 
subplot(2,1,1); 

plot(indx,x); 

title(' 原 始 信号 7); 

subplot(2,1,2); 

plot(indx,xd); 

title( 压 缩 后 的 信号?); 

>> 9% 闭 入 图 像 

load tire 

9 下面 进行 噪声 的 产生 
init=3718025452; 

rand(seed' ,init); 
| 

% 显 示 原 始 图 像 及 它 的 含 噪声 的 图 像 
colormap(map); 
subplot(2,2,1);image(wcodemat(X,192)); 
title(' 原 始 图 像 ") 


axis Square 





subplot(2,2,2);image(wcodemat(Xnoise,192)); 
title( 含 噪声 的 图 像 ); 

axis Square 

9% 用 sym5 小 波 对 图 像 信号 进行 二 层 的 小 波 分 解 
[c,s]=wavedec2(X,2,'sym5'); 

% 下 面 进行 图 像 的 去 品 处 理 

% 使 用 ddencmp 函 数 来 计算 去 噪 的 默认 闷 值 和 炉 标 准 
% 使 用 wdencmp 函 数 来 实现 图 像 的 压缩 

[thr,sorh, keepappl]=ddencmp('den',"wv',Xnoise); 


[Xdenoise,cxc,lxc,perf0,per{fl2]=wdencmp('gbl',c,s,'sym®5',2,thr,sorh,keep 
9% 显 示 去 噪 后 的 图 像 
subplot(2,2,3);image(Xdenoise); 
title( 去 噪 后 的 图 像 ); 

axis Square 

>> 9% 闭 入 图 像 

load wbarb; 

% 显 示 图 像 
subplot(2,2,1);image(X);colormap(map) 
title(' 原 始 图 像 ); 

axis Square 

disp( 压 缩 前 图 像 X 的 大 小 : 7; 

whos('X') 

% 对 图 像 用 bior3.7 小 波 进行 2 层 小 波 分 解 
[c,s]=wavedec2(X,2,'bior3.7'); 

9% 提 取 小 波 分 解 结构 中 第 一 层 低频 系数 和 高 频 系数 
cal=appcoef2(c,s,'bior3.7',1); 
ch1l=detcoef2('h',c,s, 1); 
cv1l=detcoef2('V',c,s,1); 
cd1l=detcoef2('d',c,s,1); 

9% 分 别 对 各 频率 成 分 进行 重 构 
al=wrcoef2('a',c,s,'bior3.7',1); 
h1=wrcoef2('h',c,s,'bior3.7',1); 
v1=wrcoef2('vV',c,s,'bior3.7',1); 
dl=wrcoef2('d',c,s,'bior3.7',1); 
cl=[al,hl1:v1,d1]; 

% 显 示 分 解 后 各 频率 成 分 的 信息 


subplot(2'2'2);image(c1); 

axis square 

title( 分 解 后 低频 和 高 频 信息 '); 

9% 下面 进行 图 像 压缩 处 理 

9% 保 留 小 流 分 解 第 一 层 低频 信息 ， 进 行 图 像 的 压缩 
9% 第 一 层 的 低频 信息 即 为 ca1， 显 示 第 一 层 的 低频 信息 
9 首先 对 第 一 层 信息 进行 量化 编码 
cal=appcoef2(c,s,'bior3.7',1); 








cal=wcodemat(cal,440,'mat',0); 

9% 改 变 图 像 的 高 度 

cal=0.5*cal; 
subplot(2,2,3);image(cal);colormap(map); 
axis Square 

title(' 第 一 次 压缩 ); 

disp(' 第 一 次 压 绾 图 像 的 大 小 为 : ); 
whos('cal') 


9% 保 留 小 波 分 解 第 二 层 低频 信息 ， 进 行 图 像 的 压缩 ， 此 时 压缩 比 更 





% 第 二 层 的 低频 信息 即 为 ca2， 显 示 第 二 层 的 低频 信息 
ca2=appcoef2(c,s,'bior3.7',2); 

9% 首 先 对 第 二 层 信息 进行 量化 编码 
ca2=wcodemat(ca2,440, mat',0); 

9% 改 变 图 像 的 高 度 

Ca2=0.25*ca2; 

subplot(2,2,4);image(ca2);colormap(Qmap); 








axis square 
title(' 第 二 次 压缩 "); 


disp( 第 二 次 压缩 图 像 的 大 小 为 : 7); 


whos('ca2') 

输出 结果 如 下 所 示 。 

压缩 前 图 像 X 的 大 小 : 

Name Size Bytes Class Attributes 
X 256x256 524288 double 

第 一 次 压缩 图 像 的 大 小 为 : 

Name Size Bytes Class Attributes 


cal 135x135 145800 double 

第 二 次 压缩 图 像 的 大 小 为 : 

Name Size Bytes Class Attributes 

Ca2 75x75 45000 double 

运行 结果 如 图 7.10 所 示 ， 图 中 显示 了 经 过 分 解 后 的 低频 信息 和 高 
频 信息 成 分 ， 再 对 低频 信息 成 分 进行 压缩 ， 将 低频 信息 进行 二 次 分 解 ， 
分 解 后 再 进行 压缩 ， 也 就 是 图 7.10 中 所 示 的 第 一 次 压缩 和 第 二 次 压缩 
的 情况 。 可 以 看 出 ， 第 一 次 压缩 提取 的 是 原始 图 像 中 小 波 分 解 第 一 层 的 
低频 信息 ， 此 时 压缩 效 末 较 好 ， 压 缩 比较 小 ;第 二 次 压缩 是 提取 第 一 层 
分 解 低 频 部 分 的 低频 部 分 〈 即 小 波 分 解 第 二 层 的 低频 部 分 ) ， 其 压缩 比 
较 大 ， 压 缩 效 果 在 视觉 上 一 般 ， 这 是 一 种 最 简单 的 压缩 方法 只 保留 原始 
图 像 中 低频 信息 ， 不 经 过 其 他 处 理 即 可 获得 较 好 的 压缩 效果 。 在 上 面 的 
例子 中 ， 我 们 还 可 以 只 提取 小 波 分 解 第 3、 第 4 层 的 低频 信息 。 从 理论 上 
说 ， 可 以 获得 任意 压 缩 比 的 压缩 图 像 。 
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(a) 原始 图 像 (b) 分 解 后 低频 和 高 频 信息 





(c) 第 一 次 压缩 (d) 第 二 次 压缩 


4 图 7.10 利用 二 维 小 波 分 析 进 行 图 像 压 缩 





前 面 讲 到 ， 传 立 叶 变换 能 将 信号 的 时 域 特征 和 频 域 特征 联系 起 来 ， 
能 分 别 从 信和 写 的 时 域 和 频 域 进行 分 析 ， 但 却 不 能 把 二 者 有 机 地 结合 起 
来 ， 这 是 因为 信号 的 时 域 波 形 中 不 包含 任何 频 域 信 息 ， 而 频 域 波形 中 又 
不 包含 任何 时 域 信息 。 也 就 是 说 ,傅立叶 变换 是 时 域 与 频 域 完全 分 离 
的 ， 对 于 傅立叶 频谱 中 的 茶 一 频率 ， 无 法 知道 这 个 频率 是 什么 时 候 产 生 
的 。 傅 立 叶 变换 在 时 域 和 频 域 局 部 化 的 问题 上 就 显示 出 了 它 的 局 限 性 。 

早 在 1946 年 ，Gabor 注 意 到 传 立 叶 变 换 在 表示 非 平 稳 信 号 方面 的 不 
足 ， 他 通过 与 量子 力学 中 的 不 确定 性 原理 的 类 比 ， 发 现 并 证 明了 一 维 信 
号 的 不 确定 性 原理 ， 即 一 个 同时 用 时 间 和 频率 来 刻画 的 信号 特征 受 它 的 


























带宽 和 持续 时 间 乘 积 的 下 限 所 限制 。 他 提出 了 一 种 新 的 算法 : Gabor 变 
换 。 这 种 变换 的 基本 思想 是 把 信号 划分 成 许多 小 的 时 间 间 隔 ， 用 傅立叶 
变换 分 析 每 一 个 时 间 间 阳 ， 以 便 确定 信号 在 该 时 间 间 隔 存 在 的 频率 。 

我 们 从 Gabor 展 开 的 基本 概念 来 说 明 其 原理 。 对 于 一 个 一 维 信和 号 ， 
我 们 可 以 用 二 维 的 时 频 平 面 上 离散 栅 格 处 的 点 来 表示 一 个 一 维 的 信号 ， 
印 
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式 中 : ab 为 常数 ，a 代 表 栅 格 的 时 间 长 度 ，b 代 表 栅 格 的 频率 长 度 ， 
如 图 7.11 所 示 。 

式 〈7-18) 中 的 cm 是 一 维 信号 x(D 的 展开 系数 ，h(D 是 一 母 函 数 ， 
展开 的 基 函 数 Him na(D 是 由 h(O 作 移 位 和 调制 生成 的 如 图 7.12 所 示 。 





A 图 7.11 Gabor 展 开 的 抽样 栅 格 
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A 图 7.12 移 位 与 调制 后 图 像 


Gabor 最 初 选择 高 斯 函数 作为 母 函 数 h(t)， 是 因为 蜗 斯 函数 的 傅立叶 
变换 也 是 高 斯 的 ， 因 此 保证 了 时 域 和 频 域 的 能 量 都 相对 较为 集中 。 由 于 
高 斯 信号 的 时 宽 - 带 宽 积 满足 不 定 原理 ， 因 而 保证 了 使 用 高 斯 信号 可 以 
得 到 最 好 的 时 间 、 频 紊 分辩 紊 。 后 续 的 研究 表明 ， 不 止 是 蜗 斯 函数 ， 其 
他 的 窗 函 数 也 都 可 以 用 来 构成 式 “7-18) 中 的 基 函 数 。 

可 以 证 明 ， 如 果 ab>1， 即 栅 格 过 稀 ， 我 们 将 缺乏 足够 的 信息 来 恢 
复原 信号 xD。 当然 ， 如 果 ab 过 小 ， 必 然 会 出 现 信息 的 元 余 ， 这 类 似 于 
对 一 维 信号 抽样 时 抽样 频率 过 大 的 情况 。 因 此 ， 当 ab=1 时 ， 称 为 临界 抽 
样 ，ab>1 时 ， 称 为 欠 抽 样 ，ab<1 时 ， 称 为 过 抽样 。 

要 从 时 频 二 维 空间 分 析 信 和 号， 首先 必须 构造 同时 用 时 间 和 频 京 表示 











的 时 间 函 数 。Gabor 在 1946 年 提出 了 这 样 一 种 构造 函数 一 一 复 谱 图 。 
Fys(towo) =(G(D),g(t—t0)e™ )=| Dg" (t -to)e "dr (7-19) 


式 中 ，o(0) 为 信号 ，g(0 为 窗 函 数 ，|-。18( 中 1 =1 ， 我 们 构造 的 


是 9(0) 与 8(0) 的 时 间 平移 g(t-to) 和 频率 调制 形式 ejiwot 的 复数 共 生 的 内 积 。 
fy s(to Wo) 其 实 是 gp(Dg” (t-to) 的 Fourier 变 换 。 利 用 求 逆 公 式 ， 可 以 从 复 谱 
图 中 重 构 原 信号 g(t )。 


] oF or jw 1 
(1) = | | | Fys (to, wo)g(t—to)e™™ dtodwo (7-20) 
ET 


重 构 信 号 gtt ) ， 并 不 需要 知道 全 部 复 详 图 ， 只 需 知 道 复 谱 图 在 一 组 
网 格 皮 (to=mT,Wo=nQ,m、n ) 为 整数 的 值 即 可 ， 其 中 QT =2n (临界 采 
样 ) 。 

复 谱 图 在 网 格 点 的 取 值 fn 为 


fmn = A p(t)g (t—-mT)e dr CET]. 


由 于 人 欠 抽样 时 固有 的 缺点 ， 因 此 人们 很 少 研究 它 。Gabor 最 早 提出 
的 是 使 用 高 斯 窗 ， 并 取 临 界 抽样 。 但 是 ，Gabor 展 开 的 这 一 想法 长 期 没 
有 被 重视 ， 其 主要 原因 是 由 于 展开 系数 计算 的 困难 。 直 到 1980 年 ， 
Bastiaans 提 出 了 用 建立 辅助 函数 和 对 倘 函 数 来 求解 展开 系数 的 方法 之 
后 ，Gabor 展 开 的 研究 才 引 起 了 人 们 的 兴趣 。 

从 理论 上 讲 ，Gabor 展 开 的 讨论 和 时 频 分 布 、 滤 波 器 组 及 小 波 变换 
等 新 的 信号 处 理 理 论 密 切 相 关 。 因 此 ， 这 些 新 的 信号 处 理 理 论 的 应 用 也 
涉及 到 Gabor 展 开 的 应 用 。Gabor 展 开 在 信号 、 图 像 的 表示 以 及 语音 分 
析 、 目 标识 别 、 信 号 的 瞬 态 检测 等 各 方面 都 取得 了 较 好 的 应 用 成 果 。 








下 面 介 绍 一 下 连续 信号 Gabor 展 开 系 数 的 计算 。 
今 
gmn(t) = g(t —na)er™™ (7-22) 
J 
i (ii (0)) 三 | xDg ( —na)e J™b dr (7-23) 


比较 式 《7-22) 与 式 〈7-23) ， 江 即 发 现 
Ganlt} = SITE.(m, nm (7-24) 


即 Gabor 系 数 是 在 离散 栅 格 上 求 出 的 STFT。 通 常 ， 式 (7-23) 称 为 
Gabor 变 换 ， 式 (7-22) 称 为 Gabor 展 开 。 
将 式 (7-24) 代入 式 (7-22) 中 ， 有 
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ml n 


= > X(t gm a(t Yt ha nlt) (7-25) 


mm, 并 


[x [2 六 i (t Ne (7)]dt 


奉 要 该 式 的 右边 等 于 x(t)， 则 必 有 


pe (1 bad?) a of 7] (7-26) 

式 《7-26) 给 出 了 为 保证 由 cm 恢复 x(t)、Hmn( 和 gn 应 遵循 的 
条 件 。 满 足 该 条 件 的 Ha n(t) 被 称 为 是 完备 的 。 

由 式 《〈7-26) 还 可 以 引申 出 坪 函 数 h(t) 和 其 对 侦 母 函数 g(t) 之 间 的 天 


系 。 


| g(D (t—-na)eY™'dt=6,0, 729 


该 式 称 为 g(t) 和 h(t) 之 间 的 双 正 交 关 系 。 显 然 ， 硅 m,n 中 有 一 个 不 为 
零 ， 上 式 的 积分 即 为 零 。 夺 m=n=0， 则 


| g(D)h’ (tdt=1 (7-28) 


以 上 给 出 的 关系 是 在 ab=1， 即 临界 抽样 的 情况 下 得 到 的 。 由 上 面 
的 讨论 ， 我 们 可 得 到 一 个 求解 Gabor 系 数 的 方法 。 

(1) 选择 一 个 母 函 数 〔 或 基 汪 数 ) h(t)。 

(2) 求 其 对 侦 函 数 g(t)， 使 之 满足 (7.2.10) 式 及 (7.2.11) 式 。 

(3) 按 (7.2.9) 式 做 内 积 ， 从 而 得 到 cn。 

上 面 的 分 析 表 明 ， 任 意 可 以 用 高 斯 函数 调制 的 复 正 弦 形 式 表示 的 信 
号 都 可 以 达到 时 域 和 频 域 联合 不 确定 关系 的 下 限 ， 可 以 同时 在 时 域 和 频 
域 获得 最 佳 的 分 辨 率 ， 这 种 表示 是 Gabor 函 数 的 最 初 形 式 。 

最 近 二 三 十 年 ， 随 着 神经 生理 学 和 小 波 变换 技术 的 发 展 ，Gabor 函 
数 逐 渐 演 变 为 二 维 小 波 的 形式 。 二 维 Gabor 小 波 变换 是 图 像 的 多 尺度 表 
示 和 分 析 的 有 力 工 具 ， 作 为 唯一 能 够 取得 空域 和 频 域 联合 不 确定 关系 下 
限 的 Gabor 函 数 经 常 被 用 作 小 波 基 函数 ， 对 图 像 进行 各 种 分 析 。 前 一 节 
的 内 容 告诉 我 们 小 波 变换 是 用 一 组 滤波 器 函数 与 给 定 信号 的 卷 积 来 表示 
或 逼近 一 个 信号 。 二 维 Gabor 滤 波 器 的 函数 形式 可 以 表示 为 
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式 中 : x 为 给 定位 置 的 图 像 坐标 ;和 为 滤波 器 的 中 心 频率 ;中 ,体现 





[Pl 
了 滤波 器 的 方向 选择 性 。 在 自然 图 像 中 ， 0” 用 来 补偿 由 频率 决定 的 
[i Px 
exXp( 一 一 一 一 一 
能 量 谱 衰减 。 207 用 来 约束 平面 波 的 高 斯 包 络 了 数 。 


exp(ikj 汶 为 复数 值 平面 波 ， 其 实 部 为 余弦 平面 波 cos( 右 x) ， 虚 部 为 正 
弦 平 面 波 Sin(kjx) ， 由 于 余弦 平面 波 关于 高 斯 窗口 中 心 偶 对 称 ， 在 高 斯 
包 络 函 数 的 约束 范围 内 ， 其 积分 值 不 为 0， 而 正弦 平面 波 关于 高 斯 窗口 
奇 对 称 ， 在 高 斯 包 络 函 数 的 约束 范围 内 ， 其 积分 值 为 0， 为 了 消除 图 像 
的 本 流 成 分 对 二 维 Gabor 小 让 变换 的 影响 ， 在 复 值 面 波 人 部 
exXp( 一 一 一 

和 灰 度 绝对 数值 的 影响 ， 
并 且 对 图 像 的 光照 变化 不 敏感 。 

二 维 Gabor 滤 波 器 是 带 通 滤波 器 ， 在 空间 域 和 频率 域 均 有 较 好 的 分 
辨 能 力 ， 它 在 空间 域 有 良好 的 方向 选择 性 ， 在 频率 域 有 良好 的 频率 选择 
性 ， 二 维 Gabor 小 波 可 以 提取 图 像 不 同 的 频率 尺度 和 纹理 方向 的 信息 
二 维 Gabor 小 波 滤波 器 组 的 参数 体现 了 它 在 空 = 间 域 和 频率 域 的 采样 广 
式 ， 决 定 了 它 对 信号 的 表达 能 

二 维 Gabor 小 波 是 由 二 维 Gabor 滤 波 器 函数 通过 尺度 伸缩 和 旋转 生成 
的 一 组 滤波 器 ， 其 参数 的 选择 通常 在 频率 空间 进行 考虑 。 为 了 对 一 幅 图 
像 的 整个 频率 进行 采样 ， 可 以 采用 具有 多 个 中 心 频率 和 方向 的 Gabor 滤 
波 器 组 来 描述 图 像 。 参 数 Ku、 和 的 不 同 选择 分 别 体现 了 二 维 Gabor 小 波 
在 频率 和 方向 空间 的 采样 方式 。 参 数 c 决 定 滤波 器 的 带宽 ， 两 者 的 关系 
为 
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式 中 : $ 为 用 倍 频 程 表示 的 半 峰 带宽 ， 当 =0.5 倍 频 程 时 ，as2r; 当 
q=1 倍 频 程 时 ，osn;， 当 p=1.5 倍 频 程 时 ，os2.5。 


7.3 常见 小 波 分 





小 波 变 换 的 基本 思想 是 用 一 组 小 波 函 数 或 者 基 函 数 表 示 一 个 函数 或 
者 信号 。 信 和 号 分 析 一 般 是 为 了 获得 时 间 和 频率 域 之 间 的 相互 关系 ， 传 立 
叶 变 换 提 供 了 有 关 频 率 域 的 信息 ， 但 时 间 方 面 的 局 部 化 信息 却 基 本 丢 
失 。 与 傅立叶 变换 不 同 ， 小 波 变 换 通 过 平移 母 小 波 或 基本 小 波 可 获得 信 
号 的 时 间 信 息 ， 而 通过 缩放 小 波 的 宽度 或 尺度 可 获得 信号 的 频率 特性 。 
在 小 波 变 换 中 ， 近 似 值 是 大 的 缩放 因子 产生 的 系数 ， 表 示 信 号 的 低频 分 
量 。 而 细节 值 是 小 的 缩放 因子 产生 的 系数 ， 表 示 信 号 的 高 频 分 量 。 

与 标准 的 傅立叶 变换 相 比 ， 小 波 分 析 中 所 用 到 的 小 波 函 数 具 有 不 唯 
一 性 ， 即 小 波 函 数 具有 多 样 性 。 小 波 分 析 在 应 用 中 的 一 个 十 分 重要 的 问 
题 就 是 最 优 小 波 基 的 选择 问题 ， 因 为 用 不 同 的 小 波 基 分 析 同 一 个 问题 会 
产生 不 同 的 结果 。 目 前 我 们 主要 是 通过 用 小 波 分 析 方 法 处 理 信号 的 结 
与 理论 结果 的 误差 来 判定 小 波 基 的 好 坏 ， 由 此 决定 小 波 基 函 数 。 

虽然 根据 不 同 的 标准 ， 小 波 函 数 具 有 不 同 的 类 型 ， 这 些 标准 通常 是 
下 面 几 点 。 

(1)9(、q(w)、g( 和 qg(w) 的 文 撑 长 度 ， 即 当时 间或 频率 趋同 无 穷 大 
时 ，q(t)、g(w)、q( 中 和 qg(w) 从 一 个 有 限 值 收敛 到 0( 注 : q(t) 为 尺度 函 
数 ， 小 波 函 数 bD 可 以 由 它 求 出 来 ) 。 

(2) 对 称 性 ， 它 在 图 像 处 理 中 可 以 很 有 效 地 避免 移 相 。 

(3) 正则 性 ， 它 在 对 信和 号 或 图 像 的 重 构 获 得 较 好 的 平滑 效果 作用 



































上 是 非常 有 用 的 。 

具有 对 称 性 的 小 波 不 产生 相位 畸变 ;具有 好 的 正则 性 的 小 波 易于 获 
得 光滑 的 重 构 曲 线 和 图 像 ， 从 而 可 以 减 小 误差 。 

在 本 节 中 ， 我 们 主要 介绍 常用 的 Haar 小 波 和 Daubechies 小 波 。 





7.3.1 Haar 小 波 


Haar 函数 是 小 波 分 析 中 最 早 用 到 的 一 个 具有 紧 支 撑 地 正 交 小 波 函 
数 ， 也 是 最 简单 的 一 个 小 波 函 数 ， 它 是 支撑 域 在 te [0,1] 东 围 内 的 单个 矩 
形 波 。Haar 函 数 的 定义 如 下 。 
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p(t)= | 一 ] 过 二 Ka (7-32) 
0 中 


Haar 小 波 的 形状 图 如 图 7.13 所 示 。 
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A 图 7.13 Haar 小 波形 状 图 


Haar 小 波 在 时 域 上 是 不 连续 的 ， 所 以 作为 基本 小 小 性 能 不 是 特别 
好 。 但 它 也 有 自己 的 优点 ， 上 有 具体 如 下 。 

(1) 计算 简单 。 

(2) q(t) 不 但 与 9(2j [jEZJ 正 交 (bb(C2ibdt=0)， 而 且 与 自己 的 整 
数位 移 正 交 ， 即 f(b(t-k)dt=0, keE2Z。 

因此 ， 在 a=2j 的 多 分 辩 率 系统 中 ，Haar 小 波 构 成 一 组 最 简单 的 正 交 
归 一 的 小 波 族 。 

例如 ， 对 只 有 4 个 像素 的 一 维 图 像 进行 Haar 小 波 变 换 。 此 图 像 对 应 
像素 值 为 [1195 7]， 用 Haar 小 波 变 换 的 过 程 是 计算 相 邻 像素 对 的 平均 
值 ， 得 到 一 幅 分 辨 紊 为 原 图 像 二 分 之 一 的 新 图 像 [10 6]。 这 时 ， 图 像 信 
尽 已 经 部 分 丢失 ， 为 了 能 从 两 个 像素 组 成 的 图 像 重 构 出 4 个 像素 的 原 图 
像 ， 必 须 把 每 个 像 系 对 的 第 一 个 像素 值 减 这 个 像素 的 平均 值 作为 图 像 的 
细节 系数 保存 。 因 此 ， 原 图 像 可 以 用 两 个 平均 值 两 个 细节 系数 表示 : 





[1061-1。 可 以 把 第 一 步 变换 得 到 的 图 像 进一步 变换 ， 原 图 像 两 级 变 
换 过 程 如 下 所 示 。 


表 7.1 Haar 小 波 变 换 过 程 


订 
也 


平 均值 细 节 值 





4 | [11957] 
2 | nogl [1-1] 
1 [8] [2] 











Haar 小 波 变换 过 程 实 际 上 是 用 求 平 均值 和 差 值 的 方法 对 函数 或 图 像 
进行 分 解 ， 对 于 上 例 ， 我 们 可 作 最 多 两 层 的 分 解 。 

对 于 二 维 图 像 ， 同 样 可 以 用 依次 对 行列 进行 小 波 变换 得 到 二 维 图 像 
分 解 方法 。 这 时 经 过 一 次 小 波 变 换 得 到 的 是 二 维 图 像 的 近似 值 以 及 水 
平 、 垂 直 和 对 焦 细 节 分 量 ， 显 然 从 二 维 图 像 的 近似 值 、 水 平 值 、 和 对 直 值 
以 及 对 角 细 市 分 量 值 可 以 重 构 出 原来 的 二 维 图 像 。 

[ 例 7.6] 利用 haar 小 波 对 信号 进行 分 解 并 压缩 信号 

使 用 函数 wdcbm() 获 取信 号 压缩 阐 值 ， 然 后 采用 函数 wdencm0) 实 现 
言 号 压缩 。 程 序 如 下 。 

% 装 载 信和 号 

load nelec; 

indx=1:1024: 

x=nelec(indx); 

% 用 小 波 haar 对 信号 进行 三 层 分 解 

[c,l]=wavedec(x,3,'haar'); 

alpha=1.5; 

% 获取 信号 压缩 的 阔 值 

[thr,nkeep]=wdcbm(c,l,alpha); 

% 对 信号 进行 压缩 











[xd,cxd,lxd,perf0,perfl2]=wdencmp('lvd',c,],'haar',3,thr,'s'); 

Subplot(2,1,1); 

plot(indx,x); 

title(' 原 始 信号 '); 

Subplot(2,1,2); 

plot(indx,xd); 

title( 压 缩 后 的 信号 ); 

程序 运行 结果 如 图 7.14 所 示 ， 用 Haar 小 波 对 信和 号 进行 三 层 分 解 后 ， 
获取 信号 压缩 阀 值 从 而 实现 压缩 的 效果 。 从 图 7.14 中 可 以 看 出 ， 压 缩 后 
的 信号 明显 比 原始 信号 包含 更 少 的 细节 信息 。 








200 400 600 800 1000 1200 
(a) 原始 信和 号 








200 400 600 800 1000 1200 
(b) 压缩 后 的 信和 号 


A 图 7.14 信号 压缩 结 


7.3.2 Daubechies 小 } 


Daubechies 小 波 是 由 世界 著名 的 小 波 分 析 学 者 Inrid Daubechies 构 造 
的 小 波 函 数 。 我 们 一 般 写成 bgN，N 是 小 波 的 阶 数 。 小 波 b(D 和 尺度 函数 
9 人 中 的 文 撑 区 为 2N-1， 中 (的 消失 和 矩 为 NS。 除 N=1 外 ，dbN 不 具有 对 称 
性 《〈“ 即 非 线性 相位 ) 。dbN 没 有 明确 的 表达 式 〈 除 了 N=1 外 ) ， 但 转换 
函数 h 的 平方 模 是 很 明确 的 。 


N-1 
Mos 2 yl 
今 k=0 ， 其 中 Ck ”为 二 项 式 的 系数 ， 则 有 


Ww 。 WwW 
| mo(w) |*= (cos’ 二 PGin 一 ) 


] 2N-1 
mo(w) 三 一 一 和 je 


式 中 : V2 k=0 
Daubechies 小 波 具 有 以 下 特点 。 
(1) 在 时 域 上 是 有 限 支 撑 的 ， 即 (0) 长 度 有 限 。 而 且 其 蜗 阶 原点 矩 
ftP q(t)dt=0，p=0~ 一 N; N 值 越 大 ， 中 (的 长 度 就 越 长 。 
(2) 在 频 域 上 q(w) 在 w=0 处 有 N 阶 零点 。 
(3) (和 它 的 整数 位 移 正 交 归 一 ， 即 /b(t )qb(t-k)dt=6l。 
(4) 小 波 函 数 b(t) 可 以 由 所 谓 “ 尺 度 函 数 ”q(t) 求 出 来 。 尺 度 函 数 g(t) 
为 低 通 函数 ， 长 度 有 限 ， 文 撑 域 在 FF0 一 2N-1 范 围 内 。 
[ 例 7.7] 利用 db1 小 波 对 图 像 分 解 和 重 构 
二 维 离散 小 波 变 换 只 提供 了 一 个 函数 swt20， 因 为 它 不 对 分 解 系数 
进行 下 采样 ， 所 以 单 层 分 解 和 多 层 分 解 的 结果 是 一 样 的 。 程 序 如 下 。 
load noiswom 
[swa,swh,swv,swdl]=swt2(X,3,'db1"); 
% 使 用 db1 小 波 对 noiswom 图 像 进 行 三 层 静 态 小 波 分 解 


whos 














9% 可 以 看 出 ，swt2 所 小 波 分 解 同 样 不 改变 信号 的 长 度 ， 原 来 的 


96x96 的 图 
9%6 像 做 了 三 层 分 解 以 后 ， 分 解 系数 是 12 个 96x96 的 图 像 
colormap(map) 
kp=0; 
for i=1:3 


subplot(3,4,kp+1),image(wcodemat(swa(:,:,i),192)); 
title(['Approx,cts,level',num2str(i)]) 

% 显示 第 i 层 近 似 系 数 图 像 ， 以 192 字 市 为 单位 编码 
subplot(3,4,kp+2),image(wcodemat(swh(:,:,i),192)); 
title([ Horiz.Det.cfs level',num2str(i)]) 
subplot(3,4,kp+3),image(wcodemat(swv:(:,:,i),192)); 
title([ Vert.Det.cfs level',num2str(i)]) 
subplot(3,4,kp+4),image(wcodemat(swd(:,:,i),192)); 
title(['Diag.Det.cfs level',num2str(i)]) 

kp=kp+4; 

end % 图 像 分 解 结 束 

% 图 像 重 构 

load noiswom 

[swa,swh,swv,swdl]=swt2(X,3,'db1"); 

% 使 用 db1 小 波 对 noiswom 图 像 进 行 三 层 小 波 分 解 
mzero=zeros(size(swd)); 

A=mzero; 
A(:,:,3)=iswt2(swa,mzero,mzero,mzero,'db1'); 


% 使 用 iswt2 的 滤波 器 功能 ， 重 建 第 3 层 的 近似 系数 ， 为 了 避免 iswt 





9% 成 运算 ， 注 意 在 重建 过 程 中 ， 应 保证 其 他 各 项 系数 为 零 


H=mzero;V=mzero;D=mzero:; 

for i=1;3 

swcfs=mzero;swctfs(:,:,i)=swh(:,:,i); 
H(:,:,i)=iswt2(mzero,swctfs,mzero,mzero,'db1"); 
swcfs=mzero;swctfs(:,:,i)=swv(:,:,i); 
V(:,:,i)=iswt2(mzero, mzero,swcfs,mzero,'db1"); 
swcfs=mzero;swctfs(:,:,i)=swh(:,:,i); 
H(:,:,i)=iswt2(mzero,mzero,mzero,swcfs,'db1"); 
end 


% 分 别 重 建 1 一 3 级 的 各 个 细节 系数 ， 同 样 在 重建 茶 一 吸收 的 时 候 ， 


要 令 其 他 系数 为 0 


A(:,:,2)=A(G,:,3)+H(G:,:,3)+V(G,:,3)+D(:,:,3); 
A(G:,:,1)=A(G:,:,2)+H(G:,:,2)+V(:,:,2)+D(:,:,2); 

% 使 用 弟 推 的 方法 建立 地 1 层 和 第 2 层 近 似 系数 
colormap(map) 

kp=0; 

for i=1:3 
subplot(3,4,kp+1),image(wcodemat(A(:,:,i),192)); 
title([' 第 ',num2str(i),' 屋 近似 系数 图 像 '],'fontsize',6) 
subplot(3,4,kp+2),image(wcodemat(H.(:,:,i),192)); 
title([' 第 ',num2str(i),' 层 水 平 细节 系数 图 像 '],'fontsize',6) 
subplot(3,4,kp+3),image(wcodemat(V(:,:,i),192)); 
title([' 第 ',num2str(i),' 层 竖 直 细节 系数 图 像 '],'fontsize',6) 
subplot(3,4,kp+4),image(wcodemat(D(:,:,i),192)); 
title([' 第 ',num2str(i),' 层 对 角 细 节 系 数 图 像 '],'fontsize',6) 
kp=kp+4; 


end 





显示 的 结果 如 图 7.15 所 示 ， 由 于 分 解 过 程 中 没有 改变 信和 号 的 长 
度 ， 所 以 在 显示 近似 和 细节 系数 时 不 需要 重建 。 


点 PProx,cfs leyel1 HorizDetcfs levell YertDetcfs level1 Diag.Det.cfs level1 


20 20 20 
a0 40 40 
0 60 BD 


80 





80 


SU 





20 40 60 80 20 40 6080 20 40 60 80 
Honz Daet cfs leyel2 VertDet cfs level2 Diag Det.cis level2 





20 20 20 
40 40 40 
60 60 60 
80 80 80 
20 40 60 80 2040 60 80 2040 6080 20 40 60 80 


Approx,cfs ,level3 HonzDet.cfs level3 Vert Det.cfs level3 Diag.Detcfs level3 


20 
A0 
60 
80 





20 40 60 80 2040 60 80 2040 6080 20 40 60 80 


A 图 7.15 利用 db1 小 波 进行 图 像 分 解 





20 40 60 80 20 40 60 80 20 40 60 80 20 40 60 80 
第 1 层 近 似 系 数 图 像 ” 第 1 层 水 平 细节 系数 图 像 第 1 层 紧 直 细 节 系 数 图 像 第 1 层 对 角 细 节 系 数 图 像 


(a) 





20 40 60 80 20 40 60 80 20 40 60 80 20 40 60 80 
第 2 层 近 似 系 数 图 像 ”第 2 层 水 平 细节 系数 图 像 第 2 层 坚 直 细 节 系 数 图 像 第 2 层 对 角 细 节 系 数 图 像 
(b ) 





20 d40 60 80 20 40 60 80 20 40 60 80 20 40 60 80 
第 3 层 近似 系数 图 像 ” 第 3 层 水 平 细节 系数 图 像 第 3 层 紧 直 细 节 系 数 图 像 第 3 层 对 角 细 节 系 数 图 像 
(C) 


4 图 7.16 利用 db1 小 波 对 图 像 进行 各 级 静态 小 波 重 建 








一 维 情况 下 的 小 疲 理 论 具 有 了 丰富 的 成 果 ， 基 于 小 波 变 换 的 多 分 辨 
率 分 析 ， 我 们 知道 分 解 过 程 实际 上 需要 对 滤波 后 的 信号 进行 抽样 ， 而 重 
建 过 程 需 要 对 子 带 信号 进行 插值 再 滤波 。 对 于 一 维 信号 ， 这 类 抽样 与 播 
值 较 容 易 实 现 ， 但 对 于 二 维和 多 维 情形 就 复杂 得 多 。 由 于 对 多 维 信号 的 
抽样 ， 实 际 上 是 对 输入 样本 的 下 标 进行 处 理 ， 保 留 部 分 样本 输出 ， 一 般 
下 标 处 理 是 用 一 个 抽样 矩阵 来 实现 的 ， 即 











y(K)=x(D:K),K eZ’ (7-33) 


式 中 : x 为 输入 信号 ; y 为 输出 信号 。 抽 样 矩 阵 D 的 行列 式 的 绝对 
值 |det(D)|=N， 表 示 抽 样 率 ， 即 将 在 N 个 输入 样本 中 抽取 一 个 样本 作为 
输出 。 在 不 分 离 的 多 分 辩 率 分 析 中 ， 抽 样 矩 阵 为 对 角 阵 且 各 维 的 特征 值 
均 相 等 ， 即 D=2:I， 其 中 2 为 维 数 ，I 为 二 维 单位 窍 阵 。 

多 维 多 分 辩 率 分 析 中 ， 三 维 多 分 辩 率 分 析 是 最 共有 实用 意义 的 ， 这 
不 仅 因 为 三 维 信息 能 为 我 们 认识 宏观 或 微观 客体 提供 真实 的 资料 ， 而 且 
我 们 每 天 都 面 对 大 量 的 三 维 信号 加 工 处 理 。 最 典型 的 三 维 信号 是 下 面 两 
种 情形 。 

(1) 关于 时 间 轴 的 视频 信和 号 或 图 像 序列 ， 每 帧 图 像 是 空间 二 维 
的 ， 而 各 帧 图 像 之 间 关 系 是 时 序 的 ; 对 该 类 三 维 图 像 处 理 的 目的 ， 通 常 
是 对 客体 的 运动 轨迹 和 运动 速度 作出 估计 ， 或 进行 序列 图 像 的 压缩 存储 
和 传输 。 

(2) 关于 z 轴 计算 机 断层 成 像 的 图 像 序 列 ， 如 医用 和 工业 用 CT 或 
医用 MR 等 成 像 设备 ， 它 的 每 帧 图 像 是 空间 二 维 的 ， 而 各 帧 图 像 之 间 的 
关系 关于 z 轴 是 序列 的 ， 是 真正 的 三 维 图 像 比 时 间 序 列 的 三 维 图 像 要 复 
杂 得 多 。 对 该 类 三 维 图 像 的 处 理 目 的 通常 是 要 计算 客体 的 三 维 形状 、 尺 
寸 和 中 心 位 置 ， 或 进行 序列 图 像 的 压缩 存储 与 传输 。 

一 般 来 说 ， 三 维 序列 图 像 中 ， 空 间 维 ( 二 维 ) 与 时 间 维 (一 维 ) 的 
特性 兰 卉 性 较 大 ， 是 可 以 分 离 来 进行 多 分 辨 率 分 析 的 ， 而 真 三 维 的 图 像 
原则 上 难以 分 离 。 幸 运 的 是 ， 我 们 第 面 对 的 是 数字 订 列 图 像 ， 不 管 是 每 
帧 图 像 ‘三维 ) 还 是 序列 图 像 〈 三 维 ) ， 都 当 作 可 分 离 情 形 来 处 理 ， 实 
际 上 均 能 取得 满意 的 结果 ， 这 就 为 我 们 的 工作 带 来 极 大 的 便利 。 

既然 三 维 序列 图 像 ， 不 管 哪 一 种 情形 ， 都 认为 是 可 分 离 的 ， 则 可 以 
用 分 解 框 图 给 出 其 中 一 级 的 多 分 辨 率 分 析 过 程 。 

(1) 关于 z 轴 的 三 维 序列 图 像 的 一 级 多 分 辩 率 分 析 ， 见 图 7.17。 


























(2) 关于 t 轴 三 维 序列 图 像 的 一 级 多 分 辨 率 分 析 ， 见 图 7.18。 








A 图 7.17 关于 Z 轴 可 分 离 三 维 多 分 辨识 分 析 一 级 ) 
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A 图 7.18 关于 t 轴 可 分 离 三 维 多 分 辨 率 分 析 (一 级 ) 

对 有 限 序列 信号 f(x,y,9)eL? (2 x9)，9=z 或 {， 在 闭 子 空间 序列 { 万 
jjezssL2 (2 xb) 中 满足 7.1 节 中 提 到 的 多 分 辨 率 分 析 的 定义 的 五 条 性 质 ， 
就 说 闭 子 空间 序列 


{Vi }jez EL (R’ x0) 





是 一 个 三 维 多 分 辨 率 分 析 。 与 此 相 类 似 ， 有 三 维 尺 度 函 数 
G(x,»,0)= Gx)G(y)G(0), vieZ 
Piatt = {pin pi pi [hi,k2, ks eZ } 


构成 万 的 标准 正 交 基 。 
它 的 8 个 三 维 小 波 函数 为 


0 =G(x)8(7)G(0) 
0 =9(x)G(y)G(0) 
5 =G(x)9(y)G(0) 
Jp =G(x)G(y)9(0) 
5 = gz)p(C)O(O) 
09"" = 9(x)G(y)9(0) 
0 =9(x)9(y)G(0) 
0 =@(x)6(y)9(0) 
它们 的 伸缩 平移 系 


(7 | j,k,l,m 也 pi 二 1,2,.……,8! 


构成 L? (rx9) 的 一 个 标准 正 交 基 。 其 他 不 再 一 一 表述 。 








在 成 像 过 程 中 ， 由 于 成 像 系统 各 种 因 妹 的 影响 ， 可 能 使 图 像 质 量 降 
低 ， 即 “人 退化”。 与 图 像 增强 相似 ， 图 像 复原 的 目的 也 是 改善 图 像 质量 。 
但 是 图 像 复 原 是 试图 利用 退化 过 程 的 先 验 知识 使 已 被 退化 的 图 像 恢复 本 
来 面目 ， 而 图 像 增强 是 用 茶 种 试探 的 方式 改善 图 像 质量 ， 以 适应 人 眼 的 
视觉 与 心理 。 引 起 图 像 退 化 的 因素 包括 由 光学 系统 、 运 动 等 造成 的 图 像 
模糊 ， 以 及 源 目 电路 和 光学 因 系 的 噪声 等 。 图 像 复 原 是 基于 图 像 退化 的 
数学 模型 ， 复 原 的 方法 也 建立 在 比较 严格 的 数学 推导 上 。 因 此 ， 有 较 多 
而 复杂 的 数学 运算 是 本 音 的 特点 。 

本 章 的 知识 和 技术 热点 

e 图 像 复原 的 基本 概念 

e 图 像 复原 的 一 般 模 型 

e 实用 图 像 复原 技术 

本 章 的 典型 案例 分 析 

e 利用 图 像 复原 方法 复原 模糊 噪声 图 像 
































图 像 复原 技术 的 目的 是 使 退化 了 的 图 像 尽 可 能 恢复 到 原来 的 真实 面 
舰 ， 所 以 对 其 理论 的 了 解 显得 尤为 重要 。 本 节 主 要 讲述 图 像 复原 的 基本 
概念 、 基 本 模型 ， 以 及 和 用 的 几 种 噪声 模型 ， 在 介绍 完 这 些 的 基础 上 ， 
继续 了 解 一 下 向 用 的 比较 简单 的 线性 一 维 不 变 模型 。 











图 像 复原 与 第 5 章 介绍 的 图 像 增 强 相 似 ， 两 者 都 是 要 得 到 在 茶 种 意 








义 上 改进 的 图 像 ， 或 者 说 ， 和 希望 改进 输入 图 像 的 质量 。 两 者 不 同 之 处 是 
图 像 增强 技术 一 般 要 借助 人 的 视觉 系统 的 特性 ， 以 取得 看 起 来 较 好 的 视 
党 效果 。 而 图 像 复原 则 认为 图 像 在 东 种 情况 下 退化 或 恶化 了 《图 像 品质 
下 降 了 ) ， 现 在 需要 根据 相应 的 退化 模型 和 知识 重建 或 恢复 原始 的 图 
像 。 尽 管 两 者 有 相交 叉 的 领域 ， 但 图 像 增 强 主要 是 一 个 主观 的 过 程 ， 而 
图 像 复原 的 大 部 分 过 程 是 一 个 客观 的 过 程 。 也 就 是 说 ， 图 像 复原 技术 是 
将 图 像 退化 的 过 程 模 型 化 ， 并 据 此 采取 相反 的 过 程 以 得 到 原始 的 图 像 。 

图 像 复原 的 前 提 是 图 像 退 化 ， 图 像 退 化 是 指 图 像 在 形成 、 记 录 、 人 处 
理 、 传 输 过 程 中 由 于 成 像 系 统 、 记 录 设 备 、 处 理 方法 和 传输 介质 的 不 完 
普 ， 导 致 的 图 像 质 量 下 降 。 具 体 来 说 ， 常 见 的 退化 原因 大 致 有 成 像 系统 
的 像 兰 或 有 限 孔 径 或 存在 衍射 、 成 像 系统 的 离 焦 、 成 像 系统 与 景物 的 相 
对 运动 、 底 瞩 感 光 特 性 曲线 的 非 线性 、 显 示 器 显示 时 的 失真 、 遥 感 成 像 
中 的 大 气 散射 和 大 气 扰动 、 遥 感 摄像 机 的 运动 和 扫描 速度 不 稳定 、 系 统 
各 个 环节 的 噪声 干扰 、 模 拟 图 像 数 字 化 引入 的 误差 等 。 

将 损失 掉 的 图 像 质 量 部 分 复原 过 来 ， 可 以 起 到 不 同 的 作用 : 可 能 像 
化 妆 品 一 样 只 起 修饰 作用 ， 也 可 能 起 到 成 败 依 关 的 作用 ， 例 如 太空 研究 
中 月 球 和 行星 图 像 的 获取 。 图 像 复原 可 以 抽象 的 表述 为 退化 过 程 可 以 看 
作 是 一 个 变换 T， 厦 原始 图 像 为 f(x,y)， 退 化 图 像 为 g(x,y)， 则 有 
T[f(x,y)] 一 g(X,y)。 复 原 就 是 由 g(x,y) 求 f(x,y)， 即 进行 逆 变 换 t1 ， 使 得 C 
[g(X,y)] — f(x,y)。 





























对 于 退化 的 复原 ， 一 般 可 采用 两 种 方法 。 一 种 方法 适用 于 对 图 像 缺 
乏 已 知 信息 的 情况 ， 此 时 可 对 退化 过 程 〈《 模 糊 和 噪声 ) 建立 模型 ， 进 行 
描述 ， 并 进而 寻找 一 种 去 除 或 削弱 其 影响 的 过 程 。 由 于 这 种 方法 试图 佑 
计 图 像 被 一 些 相对 民 性 的 退化 过 程 影响 以 前 的 情况 ， 故 是 一 种 估计 方 





二 

另 一 方面 ， 各 对 于 原始 图 像 有 足够 的 已 知 信息 ， 则 对 原始 图 像 建立 
一 个 数学 模型 并 根据 它 对 退化 图 像 进行 拟 合 会 更 有 效 。 人 例如， 假设 已 知 
图 像 中 仅 含 有 确定 大 小 的 圆 形 物 体 〈 如 星辰 、 颗 粒 、 细 胞 等 ) ， 这 样 ， 
由 于 仪 是 原始 图 像 很 少 的 几 个 参数 (数目 、 位 置 、 幅 度 等 ) 未 知 ， 因 此 
这 是 一 个 检测 问题 。 

在 进行 图 像 复 原 时 ， 还 有 许多 其 他 选择 。 首 先 ， 问 题 既 可 以 用 连续 
数学 ， 也 可 以 用 离散 数学 进行 处 理 。 其 次 ， 处 理 既 可 以 在 空间 域 ， 也 可 
以 在 频 域 进行 。 此 外 ， 当 复原 必须 用 数字 方法 进行 时 ， 处 理 既 可 以 通过 
空间 域 卷 积 ， 也 可 以 通过 频 域 的 相 乘 来 实现 。 

1. 图 像 退 化 复原 模型 

本 市 将 用 图 8.1 所 示 的 系统 作为 图 像 的 退化 和 复原 的 模型 。 退 化 过 
程 可 以 被 模型 化 为 一 个 退化 函数 和 一 个 加 性 噪声 项 ， 对 一 幅 输 入 图 像 
f(x,y) 进 行 处 理 ， 产 生 一 幅 退 化 图 像 g(x,y)。 给 定 g(x,y) 和 关于 退化 函数 H 
的 一 些 信息 以 及 外 加 噪声 项 n(x,y)， 图 像 复 原 的 目的 是 获得 关于 原始 图 


像 的 近似 估计 了 (xy)。 通 党 我 们 希望 这 一 估计 尽 可 能 接近 原始 输入 图 
像 ， 并 且 H 和 n 的 信息 知道 的 越 多 ， 所 得 到 的 (x,y) 就 会 越 接近 f(x,y)。 

















g(x,y) 


i 


n(x,y) 









退化 函数 


JS 
H 


复原 


滤波 






9 fley) 





A 图 8.1 图 像 退 化 和 复原 模型 图 


如 傈 系统 酉 是 一 个 线性 、 位 置 不 变性 的 过 程 ， 那 么 在 空间 域 中 给 出 
的 退化 图 像 可 由 下 陈 给 出 。 


g(x,y) = h(x, yy)* f(x,y)+n(x, y) (8-1) 





式 中 : h(x, y) 是 退化 函数 的 空间 描述 ;“*” 表 示 空 间 卷 积 。 由 于 空间 
域 上 得 卷 积 等 同 于 频 域 上 得 乘积 ， 因 此 式 (8-1) 的 模型 的 等 价 频 域 描 
述 如 下 。 








G(u,v) = H(u,v)F (u,v) + N(u,v) (8-2) 





公式 中 的 大 写字 母 项 是 式 (8-1) 中 相应 项 的 傅立叶 变换 。 

2. 噪声 模型 

数字 图 像 的 噪声 主要 来 源 于 图 像 的 获取 和 传输 过 程 。 图 像 传感器 的 
工作 情况 受 各 种 因素 的 影响 ， 如 图 像 获 取 中 的 环境 条 件 和 传 感 元 器 件 自 
身 的 质量 。 例 如 ， 当 使 用 CCD 摄 像 机 获取 图 像 时 ， 光 照 强度 和 传感器 的 
温度 是 生成 图 像 中 产生 大 量 噪声 的 主要 因素 。 图 像 在 传输 过 程 中 主要 由 
于 所 用 传输 信道 被 干扰 而 受到 噪声 污染 。 例 如 ， 通 过 无 线 网 络 传输 的 图 
像 可 能 会 因为 光 或 其 他 大 气 因 素 的 干扰 被 污染 。 下 面 介绍 一 些 重要 噪声 
的 概率 密度 函数 。 

(1) 高 斯 噪声 

在 空间 域 和 频 域 中 ， 由 于 高 斯 噪声 在 数学 上 的 易 处 理性 ， 这 种 噪声 
模型 经 常 被 用 于 实践 中 。 事 实 上 ， 这 种 非常 方便 的 易 处 理性 ， 使 得 高 斯 
模型 经 常用 于 临界 情况 下 。 

高 斯 随机 变量 z 的 概率 密度 函数 由 下 式 给 出 。 











p(z) = ee (8-3) 


270 


式 中 : z 表 示 灰 度 值 ;， h 表 示 z 的 平均 值 或 期 望 值 ，a 表 示 z 的 标准 
差 。 标 准 差 的 平方 0? 称 为 z 的 方差 。 

(2) 瑞 利 噪声 

瑞 利 噪 声 的 概率 密度 函数 由 下 式 给 出 


< Sa 
p(z) | 8 (8-4) 
0 Zz <q 
概率 密度 的 均值 和 方差 由 
4L=Q+NWTD14 (8-5) 
和 
i (8-6) 
4 
给 出 。 


(3) 伽 马 噪声 
伽 马 噪 声 的 概率 密度 函数 由 下 式 给 出 。 





六 _b-l 
d 2 ee z 之 0 
-| (bp—1)! (8-7) 
0 zr) 


其 中 ，a>0,b 为 正 整 数 旦 “! ”表示 阶乘 。 其 密度 的 均值 和 方差 由 


a (8-8) 
a 


和 





5 = 一 ( 8-9) 


给 出 。 
(4) 指数 分 布 噪声 
指数 噪声 的 概率 密度 函数 可 由 下 式 给 出 。 





De > 0 
| (8-10) 
0 2 
其 中 ，a>0。 概 率 密 度 函 数 的 期 望 值 和 方差 是 
A = 一 (8-11) 


和 





CI ”= 一 (8-12) 








注意 ， 指 数 分 布 的 概率 密度 函数 是 当 b=1 时 伽 马 概率 密度 分 布 的 特 





(5) 均匀 分 布 噪声 
均匀 分 布 噪 声 的 概率 密度 可 由 下 式 给 出 。 








bz 
| b-a (8-13) 


0 z<0 





概率 密度 函数 的 期 望 值 和 方差 可 由 下 式 给 出 。 








(8-14) 
$y 
二 (8-15) 
[之 
(6) 脉冲 噪声 (椒盐 噪声 ) 
《 双 极 〉 脉 冲 噪声 的 概率 密度 函数 可 由 下 式 给 出 。 
z=a 
| 已 > 二 万 (8-16) 
0 其 他 


如 果 b>a， 则 灰 度 值 b 在 图 像 中 将 显示 为 一 个 亮点 ; 反之 则 a 的 值 将 
显示 为 一 个 瞳 点 。 大 ps 或 pb 为 零 ， 则 脉冲 噪声 称 为 单 极 脉冲 。 如 果 ps。 和 
pb 均 个 可 能 为 零 ， 尤 其 是 它们 近似 相等 时 ， 则 脉冲 吗 声 值 将 类 似 于 随机 
分 布 在 图 像 上 的 胡椒 和 盐 粉 微粒 。 由 于 这 个 原因 ， 双 极 脉冲 噪声 也 称 为 
椒盐 噪声 。 同 时 ， 它 们 有 时 也 成 为 散 粒 和 尖峰 噪声 。 

噪声 脉冲 可 以 是 正 的 ， 也 可 以 是 负 的 。 标 定 通 常 是 图 像 数 字 化 过 程 
的 一 部 分 。 与 图 像 信号 的 强度 相 比 ， 脉 冲 干扰 通常 较 大 ， 因 此 在 一 幅 图 
像 中 ， 脉 冲 噪声 总 是 数字 化 为 最 大 值 〈 纯 黑 或 纯 白 ) 。 这 样 ， 通 常 假 设 
a 和 b 是 饱和 值 ， 从 录 种 意义 上 看 ， 在 数字 化 图 像 中 ， 它 们 等 于 所 允许 的 
最 大 值 和 最 小 值 。 由 于 这 一 结果 ， 负 脉冲 以 一 个 黑 点 出 现在 图 像 中 。 由 
于 相同 的 原因 ， 正 脉冲 以 白 反 出 现在 图 像 中 。 

上 述 的 一 组 概率 密度 函数 为 在 实践 中 模型 化 宽 市 噪声 干扰 状态 提供 
了 有 用 的 工具 。 例 如 ， 在 一 幅 图 像 中 ， 蜗 斯 吕 声 的 产生 源 于 电子 电路 品 
声 和 由 低 照 明 或 高 旭 带 来 的 传感器 噪声 。 瑞 利 密度 分 布 在 图 像 范 围 内 特 
征 化 噪声 现象 时 非常 有 用 。 指 数 密度 分 布 和 伽 马 密 上 度 分 布 在 激光 成 像 中 

















有 一 些 应 用 。 脉 冲 噪声 主要 表现 在 成 像 中 的 短暂 停留 ， 例 如 错误 的 开关 
操作 。 均 匀 和 密度 分 布 可 能 在 实践 中 描述 的 最 少 ， 然 而 均匀 密度 作为 模拟 
随机 数 产 生 器 的 基础 是 非常 有 用 的 。 

[ 例 8.1 几 种 噪声 的 随机 数据 直方 图 

为 了 能 详细 理解 以 上 几 种 噪声 ， 并 了 解 其 使 用 ， 这 里 利用 函数 
imnoise20 产 生 上 述 几 种 噪声 模式 本 身 。 我 们 可 以 直接 指定 需要 的 噪声 
参数 。 该 函数 产生 一 个 大 小 为 LxH 的 噪声 数组 M， 为 了 使 这 个 数组 有 
用 ， 需 要 对 它 进行 进一步 的 处 理 。 例 如 ， 辱 要 用 这 个 数组 来 污染 一 幅 图 
像 ， 我 们 可 以 使 用 函数 find 寻 找 M 中 所 有 值 为 0 的 坐标 ， 并 把 图 像 中 相应 
的 坐标 置 为 可 能 的 最 小 灰 度 值 。 下 面 的 例子 是 使 用 该 函数 产生 几 种 噪声 
的 类 型 的 随机 数据 直方 图 。 

function M = imnoise2(type, L, H, x, y) 

% IMNOISE2 函 数 用 以 产生 前 面 所 述 几 种 噪声 的 随机 序列 . 

% M = IMNOISE2(TYPE, L, H, x, y) 这 里 用 M 来 代 蔡 该 随机 序列 数 

















9% 该 数组 是 LxH 维 , 里 面 的 元 又 都 是 根据 上 面 的 噪声 类 型 相应 产生 
的 

% x 和 y 是 它们 的 相关 参数 。 

% 只 有 当 需 要 的 噪声 类 型 包含 在 此 函数 中 时 ， 才 能 产生 相应 的 随机 
数组 

% 而 且 需 要 提供 L 与 H 的 值 ， 才 能 确定 该 数组 的 大 小 

% 举例 说 明 如 下 : 如 果 L=H=1， 则 该 函数 产生 特定 类 型 的 具有 参数 
x，y 的 单个 序列 数 

% 我 们 规定 的 噪声 类 型 和 参数 x、y 参 数 如 下 : % 

% 均匀 噪声 。 均匀 噪声 序列 的 相关 参数 是 (x，y) 

% 默认 值 是 (0, 1). 

% 高 斯 噪声 ”高 斯 序列 噪声 的 参数 是 平均 值 x 和 均 方 差 y 


% 默认 值 是 x=0,y=1. 
% 椒盐 噪声 。 ” 当 幅 值 是 0 时 ，Pa = x 幅 值 是 1 时 ，Pb=y 


% 默认 的 值 是 Pa = Pb =x= y= 0.05 

% 当 幅 值 不 是 0 或 1 时 ， 和 矩阵 M 就 和 三 个 参数 有 关 。 

% 如 果 M(x, y) =0， 品 声 在 (x,y〉 处 就 是 胡椒 噪声 ， 如 果 
% M(x, y) = 1， 噪 声 就 是 盐 粒 噪声 

% 如 果 M(x, y) = 0.5, 就 没有 噪声 

% 对 数 噪声 ”对 数 噪声 的 参数 是 偏 置 x 和 形状 参数 y 

% 默认 值 是 x = 1 and y =0.25. 


% 瑞 利 噪声 。 默认 参数 是 x=0 和 y=1. 
% 指数 噪声 。 指数 噪声 只 有 一 个 参数 ， 默 认 值 是 A = 1. 


% 伽 马 噪声 。 该 噪声 有 两 个 参数 ， 其 默认 值 是 A = 2 andB=5. 


% 设置 默认 值 
if nargin == 
x=0;y=1; 
L=1;H=1; 
elseif nargin == 3 
x=0;y=1; 
end 
% 开始 处 理 
switch lower(type) 
% 均 匀 品 声 的 情况 
case uniform 
M=x+(y—xXx)*rand(L, H); 
9% 高 斯 噪声 的 情况 
case 'gaussian 
R =a+b*randn(M, N); 


9 椒盐 噪 声 的 情况 
case 'salt & pepper' 
if nargin <= 3 
x= 0.05; y = 0.05; 
end 
% 确认 Pa + Pb 是 否 大 于 1. 
if (x+ y)>1 
error('The sum Pa + Pb must not exceed 1.') 
end 
R(1:L, 1:H) = 0.5; 
% 不 是 0 或 1 的 情况 
N = rand(L., H); 
c= find(N <= a); 
R(c)= 0; 
u=a+b; 
c=find(N>a&N <=u); 
MI(c)= 1; 
9%6 对 数 噪声 的 情况 
case lognormal' 
if nargin <= 3 
a=1;b= 0.25; 
end 
M = a*exp(b*randn(L, H)); 
9%6 瑞 利 噪声 的 情况 
case rayleigh' 
M =a+(-b*log(1 - rand(L, H))).^0.5; 
9% 指 数 噪声 的 情况 


case 'exponential' 
if nargin <= 3 
a=1; 
end 
ifa<=0 
error('Parameter a must be positive for exponential type.') 
end 
= -1/a; 
M = k*log(1 - rand(L, H)); 
% 伽 号 噪声 的 情况 
case 'erlang' 
if nargin <= 3 
a=2;b=5:; 
end 
if (b ~= round(b) |b <= 0) 
error('Param b must be a positive integer for Erlang.') 
end 
k = -1/a; 
R = zeros(M, N); 
forj= 1:b 
R=R+k*log(l - rand(M, N)); 
end 
otherwise 
error('Unknown distribution type.') 
end 
% 下 面 的 程序 利用 函数 imnoise20) 来 显示 上 面 儿 种 噪声 的 随机 直方 图 
I=imnoise2('gaussian',100000,1,0,1); % 产 生 参 数 是 x=0，y=1 的 高 斯 噪 


声 序列 

subplot(3,2, 1); 

hist(r,50); % 显 示 直 方 图 ， 即 (8.2) 的 (a) 图 

r=imnoise2('rayleigh',100000,1,0,1); 9% 产 生 参 数 是 x=0，y=1 的 瑞 利 噪 
声 序列 

subplot(3,2,2); 

hist(r,50); 9% 显 示 直 方 网 ， 即 (8.2) 的 (b) 图 

r=imnoise2(lognormal',100000,1,1,0.25); % 产 生 参 数 是 x=1，y=0.25 的 
对 数 噪声 序列 

subplot(3,2,3); 

hist(r,50); % 显 示 直 方 图 ， 即 (8.2) 的 (c) 图 

r=imnoise2('exponential',100000,1,1); % 产 生 参 数 是 x=1，y=1 的 指数 
噪声 序列 

subplot(3,2,4); 

hist(r,50); 9% 显 示 直 方 网 ， 即 (8.2) 的 (d) 图 

r=imnoise2(uniform',100000,10,1); % 产 生 参 数 是 x=0，y=1 的 均匀 噪 
声 序列 

subplot(3,2,5); 

hist(r,50); % 显 示 直 方 图 ， 即 (8.2) 的 (e) 图 

r=imnoise2(salt & pepper',100000,1,0.05,0.05); % 产 生 参 数 是 x=0.05， 
y=0.05 的 椒盐 噪声 序列 

subplot(3,2,6); 

hist(r,50); % 显 示 直 方 图 ， 即 (8.2) 的 (f) 图 

每 幅 图 都 产生 一 个 有 着 100 000 个 元 素 的 列 向 量 ， 产 生 的 直方 图 如 
图 8.2 所 示 ， 图 8.2 (a) 中 每 个 元 素 都 来 自 均 值 为 0、 标 准 偏差 为 1 的 融 
斯 分 布 的 随机 数 。 同 理 ， 其 他 图 是 相应 的 噪声 模式 的 直方 图 。 




















8000 8000 
6000 6000 
4000 4000 
2000 2000 

0 0 

-5 0 5 0 1 2 4 

(a) 高 斯 (b) 瑞 利 
10 
8000 3 
6000 
2 

4000 

1 
2000 

0 0 

0 1 2 3 0 5 10 1 

(c) 对 数 正 态 i (d) 指数 分 布 

3000 r r r -一 Y 9 


2000 


1000 











0 
0 0.2 04 06 0.8 1 0 02 04 06 08 1 


(e) 均匀 (f) 椒盐 
4 图 8.2 随机 数 的 直方 图 


3. 空间 滤波 复原 
当 在 一 幅 图 像 中 唯一 存在 的 退化 是 噪声 时 ， 式 〈8-1) 和 式 (8-2) 
变 成 





g(x,y)= f(x,y)+n(x, y) (8-17) 
和 


G(u,v) = F(u,v)+ N(u,v) (8-18) 


由 于 品 声 项 是 未 知 的 ， 我 们 不 能 从 g(x 忆 或 G(uv) 中 减 去 它们 。 而 如 
果 在 周期 噪声 的 情况 下 ， 通 常 从 G(u,v) 的 谱 来 估计 N(u,v) 是 可 能 的 。 

在 只 有 加 性 噪声 存在 的 前 提 下 ， 我 们 选择 空间 滤波 方法 。 下 面 介绍 
几 种 常见 的 用 于 减少 噪声 的 空间 滤波 器 。 

(1) 均值 滤波 顺 

在 图 像 上 ， 对 每 处 理 的 像素 给 定 一 个 模板 ， 该 模板 包括 了 其 周围 的 
邻近 像素 。 用 模板 中 的 全 体 像 素 的 均值 来 蔡 代 原 来 的 像素 值 的 方法 就 是 
均值 滤波 。 它 主要 包括 算术 均值 滤波 、 儿 何 均值 滤波 、 谐 波 均值 滤波 以 
及 逆 谐 波 均值 滤波 。 

由 于 均值 滤波 融 对 所 有 的 点 都 是 同等 对 符 ， 所 以 在 将 噪声 点 分 摊 的 
同时 ， 将 景物 的 边界 点 也 分 推 了 ， 会 使 图 像 变 得 模糊 。 为 改善 其 效果 ， 
可 以 采用 加 权 平 均 的 方式 来 构造 滤波 占 。 但 是 ， 它 所 滤波 的 效果 也 是 有 
限 的 。 为 有 效 改善 这 种 状况 ， 须 改换 泪 波 器 的 设计 思路 ， 统 计 排 序 源 肖 
就 是 一 种 比较 有 效 的 方法 。 

(2) 统计 排序 滤波 器 

统计 排序 滤波 器 是 一 种 非 线性 的 空间 滤波 器 ， 它 的 啊 应 基于 图 像 尖 
波 吉 包围 的 图 像 区 域 中 像 系 的 排序 ， 然 后 用 统计 排序 结果 决定 的 值 代 符 
中 心 像素 的 值 。 统 计 滤波 器 最 常见 的 例子 是 中 值 滤波 费 ， 此 滤波 右 我 们 
在 前 述 5.4 节 中 已 经 详细 介绍 过 ， 这 里 就 不 再 介绍 了 。 

[ 例 8.2] 图 像 空 域 滤 小 

利用 编写 的 函数 split0 对 图 像 进 行 空域 滤波 ， 此 函数 既 可 以 进行 线 
性 滤波 ， 也 可 以 进行 非 线性 空域 滤波 ， 并 且 概 括 了 多 种 滤波 方式 ， 如 中 
值 滤波 、 最 值 小 波 、 均 值 滤波 以 及 调和 滤波 每 。 由 于 图 像 增 强 部 分 已 经 
介绍 过 相应 的 滤波 函数 ， 并 利用 这 几 种 滤波 器 进行 了 涯 波 。 因 此 ， 此 处 
我 们 在 将 一 幅 图 像 分 别 利用 明 椒 噪声 和 盐 粒 噪声 污染 后 ， 利 用 不 同 Q 
值 的 反 调和 滤波 器 来 滤波 并 观察 滤波 效果 。 

9% 用 f 来 描述 函数 























function f = spfilt(g, type, m, n, Parameter) 

% 我 们 所 设计 的 滤波 器 主要 包括 以 下 几 种 : 

% 下 = SPFILT(G,'amean', M,N) ”算术 平均 数 滤波 
% 下 = SPFILT(G,'gmean', M,N) ”几何 均值 滤波 
% 下 = SPFILT(G, 'hmean', M,N) ” 谐 波 均值 滤波 
% 下 = SPFILT(G, 'chmean', M, N, Q) 对 比 谐 波 均值 滤波 
% 默认 的 滤波 阶 数 Q = 1.5. 
% 下 = SPFILT(G, median, M, N) ”中 值 滤 波 

% F=SPFILT(G,'max', M,N) 最 大 值 滤波 

% F=SPFILT(G,'min', M,N) 最 小 值 滤波 

% 下 = SPFILT(G, midpoint, M, N) ”中 点 滤波 

% 下 = SPFILT(G, 'atrimmed', M, N, D) 修剪 均值 滤波 . 


% 参数 D 须 是 一 个 非 负 数 
of 默认 值 是 D = 2. 
% 


% 默认 值 M=N=3， 
%Q=1.5,andD=2. 
% 处 理 输入 
if nargin == 
m=3;n=3;Q=1.5;d=2:; 
elseif nargin == 5 
Q = parameter; d = parameter; 
elseif nargin == 4 
Q=1.5;d=2; 
else 
error(Wrong number of inputs.'); 


end 


% 开始 滤波 
switch type 
% 算 术 平 均 滤波 的 情况 
case amean 
w = fspecial('average', [mn]); 
f = imfilter(g, w, 'replicate'); 
9% 几何 均值 滤波 的 情况 
case gmean 
f= gmean(g, m, n); 
% 调 和 滤波 的 情况 
case hmean' 
f = harmean(g, m, n); 
% 友 调和 滤波 的 情况 
case 'chmean' 
f = charmean(g, m, n, Q); % 利 用 相应 的 函数 
% 中 值 滤波 的 情况 
case 'median' 
f = medfilt2(g, [m nl], symmetric ); 
最 大 值 滤波 的 情况 
Case IaX 
f = ordfilt2(g, m*n, ones(m, n), 'symmetric'); 
最 小 值 滤波 的 情况 
Case 'min' 
f= ordfilt2(g, 1, ones(m, n)，Symmetric ); 
% 中 操 滤波 的 情况 
case Imidpoint 


f1 = ordfilt2(g, 1, ones(m, n), 'symmetric'); 


f2 = ordfilt2(g, m*n, ones(m, n)，Symmetric ); 
f = imlincomb(0.5, f1, 0.5, f2); 
% 修 瘟 滤 波 的 情况 
case 'atrimmed' 
if (d <= 0) | (d/2 一 = round(d/2)) 
error('d must be a positive, even integer.') 
end 
f = alphatrim(g, m, n, d); 
% 其 他 
otherwise 
error(CUnknown filter type.') 
end 
% 下 面 是 一 些 具 体 的 函数 ， 实 现 相 应 的 滤波 
function f = gmean(g, m, n) 
% 设置 一 个 几何 均值 滤波 需 
inclass = class(g); 
g = im2double(g); 
warning off; 
f= exp(imtfilter(log(g), ones(m, n), 'replicate')).^(1 / m /n); 
warning on; 


f= changeclass(inclass, f); 


function f = harmean(g, m, n) 
% 设置 调和 滤波 器 

inclass = class(g); 

g = im2double(g); 


f=m*n .imfilter(1./(g + eps),ones(m, n), 'replicate'); 


f= changeclass(inclass, f); 


function f = charmean(g, m, n, gq) 

% 设置 反 调和 滤波 器 

inclass = class(g); 

g = im2double(g); 

f= imfilter(g.^(q+1), ones(m, n), replicate'); 
f=f./ (imfilter(g.^q, ones(m, n), 'replicate') + eps); 


f= changeclass(inclass, f); 


function f = alphatrim(g, m, n, d) 
% 设置 修剪 滤波 髓 
inclass = class(g); 
g = im2double(g); 
f = imfilter(g, ones(m, n), 'symmetric'); 
for k = 1:d/2 
f = imsubtract(f, ordfilt2(g, k, ones(m, n), 'symmetric')); 
end 
for k = (m*n - (d/2) + 1):m*n 
f = imsubtract(f, ordfilt2(g, k, ones(m, n), 'symmetric')); 
end 
f=f/(m*n-d); 
f= changeclass(inclass, f); 
% 下 面 的 程序 通过 读 入 一 幅 图 像 并 将 其 污染 ， 来 利用 前 面 的 调和 渡 
波 器 滤波 
% 从 内 存 中 读 入 一 幅 图 像 
f=imread('D:\3.jpg'); 





subplot(3,2, 1); 

imshow(f);% 显 示 该 图 像 

[M,N |]=size(f); 

R=imnoise2('salt & pepper',M,N,0.1,0);% 将 该 图 像 被 概率 为 0.1 的 胡椒 
噪声 污染 

c=find(R==0); 

gp=f; 

gp(C)=0; 

subplot(3,2,2); 

imshow(gp);% 显 示 被 污染 的 图 像 

R=imnoise2('salt & pepper,M,N,0,0.1);% 将 该 图 像 被 盐 粒 污染 

c=find(R==1); 

gs=f; 

gs(C)=255; 

subplot(3,2,3); 

imshow(gs)% 显 示 被 盐 粒 污染 的 图 像 

fp=spfilt(gp,chmean',3,3,1.5);9% 使 用 Q 为 正 值 的 反 调 和 滤波 器 过 滤 妆 
椒 噪 声 

subplot(3,2,4); 

imshow!(fp); 

fs=spfilt(gs,'chmean',3,3,-1.5);% 使 用 Q 为 负 值 的 反 调和 滤波 器 滤 除 盐 
粒 噪声 

subplot(3,2,5); 

imshow!(fs); 

运行 结果 如 图 8.3 所 示 ， 图 8.3 (a) 是 原始 图 像 ， 图 8.3 (b) 是 该 幅 
图 像 被 概率 只 有 0.1 的 间 椒 噪声 污染 后 的 图 像 ， 图 8.3《〈c) 是 仅 被 盐 粒 噪 
声 污染 的 图 像 ， 过 小 胡椒 品 声 的 较 好 办 法 是 使 用 Q 值 为 正 的 反 调和 滤波 


器 ， 图 8.3 〈d) 即 是 滤波 后 的 图 像 ， 而 过 滤 盐 粒 噪声 可 以 使 用 Q 值 为 
负 的 滤波 器 ， 如 图 8.3〈c) 所 示 。 





(d) 用 阶 为 Q=1.5 的 3X3 反 调 和 滤波 器 对 (b) 滤波 的 结果 (Ce) 用 阶 为 Q=-1.5 的 3X3 反 调 和 滤波 器 对 〈c) 滤波 的 结果 


A 图 8.3 


4. 线性 空间 不 变 退 化 模型 
由 前 述 可 知 ， 复 原 前 ， 图 8.1 中 的 输入 输出 关系 可 以 表示 为 式 (8- 
17) 的 形式 。 现 在 ， 假 设 n(x,y)=0， 则 g(x,y)=H[f(x,y)]。 奎 


Hlafi(x,y)+bf2(x,»)]= aH[fi(x, y)]+bH[f (x,»)] (8-19) 


则 系统 H 是 一 个 线性 系统 。 这 里 ，a 和 b 是 比例 常数 ，fi(x,y) 和 f(x,y) 
是 任意 两 幅 输 入 的 图 像 。 
若 a=b=1， 则 式 〈8-19) 变 为 


H[fi(x,y)+ p(x,y)]= HLA(x, y+ HLf(x,»y)] (8-20) 


这 就 是 所 谓 的 加 性 。 这 一 特性 简单 地 表明 ， 如 果 H 为 线性 算 子 ， 那 
么 两 个 输入 之 和 的 响应 等 于 两 个 响应 之 和 。 
如 果 f(x, y)=0 ， 则 式 〈8-19) 变 为 


Hlafi(x,y)] = aHl[fi(x, y)] (8-21) 


这 就 是 均匀 性 。 它 表明 任何 与 乘 数 相 乘 的 输入 的 啊 应 等 于 该 输入 啊 
应 乘 以 相同 的 常数 ， 即 一 个 线性 算 子 具有 加 性 和 均匀 性 。 
对 于 任意 f (x, 内 ,ac 和 B， 如 果 


H[f(x-a,y-£)]= g(x-a,y-—p) (8-22 ) 


则 一 个 具有 输入 输出 关系 g(x, y)=H[ f(x, y)] 的 系统 称 为 空间 不 变 系 
统 。 这 个 定义 说 明 图 像 中 任 一 点 的 啊 应 只 取决 于 在 该 点 的 输入 值 ， 而 与 
该 点 的 位 置 无 关 。 

图 像 复 原 中 ， 许 多 退化 类 型 可 近似 表示 为 线性 空间 不 变 过 程 。 这 一 
方法 的 优点 在 于 广泛 的 线性 系统 理论 工具 对 于 解决 图 像 复 原 问题 很 实 
用 。 与 位 置 有 关 的 非 线性 技术 虽然 更 普 裔 ， 但 是 它们 会 带 来 很 多 困难 ， 
常 肖 没有 解 ， 或 者 解决 计算 问题 时 非常 困难 。 由 于 退化 模型 为 卷 积 的 结 
朵 ， 并 且 图 像 复 原 需 要 滤波 器 ， 所 以 图 像 复 原 叉 称 为 图 像 去 欠 积 。 

20 世 纪 60 年 代 中 期 ， 去 卷 积 〈 逆 滤波 ) 开始 被 广泛 应 用 于 数字 图 像 
复原 。Nathan 用 二 维 去 卷 积 方法 来 处 理由 漫游 者 、 探 索 者 等 外 星 探 索 发 
财 得 到 的 图 像 。 由 于 与 噪声 相 比 ， 信 号 的 频谱 随 大 频率 升 蝇 下 降 较 快 ， 
因此 高 频 部 分 主要 是 噪声 。Nathan 有 条 用 的 是 限定 去 卷 积 传递 图 数 最 大 值 
的 方法 。 

在 同一 时 期 ，Harris 则 采用 点 扩散 函数 的 解析 模型 对 望远镜 图 像 中 
由 于 大 气 扰动 所 造成 的 模糊 进行 了 去 卷 积 处 理 ，Mcglamery 采 用 由 实验 
确定 的 点 扩散 函数 来 对 大 气 扰动 去 郑 积 。 从 那 以 后 ， 去 卷 积 就 成 了 图 像 






































复原 的 一 种 标准 技术 。 

(1) 维 纳 去 卷 积 

在 大 部 分 图 像 中 ， 邻 近 的 像素 是 高 度 相 关 的 ， 而 距离 较 远 的 像素 相 
关 性 较 弱 。 由 此 ， 可 以 认为 典型 图 像 的 自 相关 函数 通常 随 着 与 原点 的 距 
离 增加 而 下 降 。 由 于 图 像 的 功率 谱 是 其 自 相 关 函 数 的 傅立叶 变换 ， 从 而 
可 以 认为 图 像 的 功率 谱 随 着 频率 的 升 高 而 下 降 。 

一 般 地 ， 噪 声 源 往往 具有 平坦 的 功率 谱 ， 即 使 不 是 如 此 ， 其 随 频率 
升 高 而 下 降 的 趋势 也 要 比 典 型 的 图 像 功 率 谱 慢 得 多 。 因 此 ， 可 以 料想 功 
率 谱 的 低频 部 分 以 信号 为 主 ， 而 高 频 部 分 则 主要 被 噪声 所 占据 。 由 于 去 
卷 积 滤波 器 的 幅 值 通常 随 着 频率 的 升 高 而 升 高 ， 因 此 会 增强 高 频 处 的 吕 
声 。 早 期 的 去 卷 积 多 采用 就 事 论 事 结合 直接 判断 的 方法 来 处 理 噪声 问 
题 。 

Helstrom 采 用 最 小 均 方 差 估计 法 ， 提 出 了 具有 如 下 二 维 传递 函数 的 
维 纳 去 卷 积 滤波 器 。 


























二 (8-23 ) 
[IH(u,v)| Pr(u,v) + P (u,v) 


它 也 可 写 做 


is (8-24) 
[IH(u,v)| +P,(u,v)/ Pr (u,v) 
式 中 : pf 和 pa 分 别 为 信号 和 噪声 的 功率 谱 。 
Slepian 将 维 纳 去 卷 积 推广 用 于 处 理 随机 点 扩散 函数 的 情况 〈 如 由 于 
大 气 扰动 引起 的 ) 。 其 后 ，Pratt 和 Habib 提 出 了 提高 维 纳 去 卷 积 计算 效 
率 的 方法 。 
维 纳 去 卷 积 提 供 了 一 种 在 有 噪声 的 情况 下 导出 去 卷 积 传递 函数 的 最 





优 方法 ， 但 有 3 个 问题 限制 了 它 的 有 效 性 。 

首先 ， 当 图 像 复 原 的 目的 是 供 人 观察 时 ， 均 方 误差 准则 并 不 是 一 个 
特别 好 的 优化 准则 。 这 是 因为 此 准则 对 所 有 误差 (不 管 其 在 图 像 中 的 位 
置 ) 都 赋予 同样 地 权 ， 而 人 眼 则 对 上 暗 处 和 高 梯 区 域 的 误差 比 其 他 区 域 的 
误 兰 具有 较 大 的 容 狼 性。 由 于 使 均 方 误 兰 最 小 化 ， 维 纳 滤 波 器 以 一 种 并 
非 适 合 人 眼 的 方式 对 图 像 进行 了 平滑 。 

其 二 ， 经 典 的 维 纳 去 卷 积 不 能 处 理 具 有 空间 可 变 点 扩散 函数 的 情形 
例如 存在 著 状 、 散 送 、 表 面 像 场 弯曲 以 及 含有 旋转 的 运动 模糊 等 情况 
下 > 

最 后 ， 这 种 技术 不 能 处 理 有 着 非 平 稳 信 号 和 噪声 的 一 般 情形 。 大 多 
数 图 像 都 是 高 度 非 平 稳 的 ， 有 着 被 陡峭 边缘 分 开 的 大 块 平坦 区 域 。 此 
外 ， 许 多 重要 的 噪声 源 是 与 局 部 灰 度 有 伏案 的 《信号 有 关 噪 声 ) 。 

(2) 功率 谱 均 衡 

Cannon 证 明 ， 如 下 形式 的 滤波 占 可 将 退化 图 像 的 功率 谱 复 原 人 至 其 原 
先 的 幅度 。 






































Pr (u,v) 1/2 


2 (8-25) 
[IH(u,v)| +Pr(u,v)+P,(u,v) 


(re 

和 维 纳 滤波 器 类 似 ， 这 种 功率 谱 均 衡 〈 点 扩散 函数 ) 滤波 器 也 是 无 
相 移 的 〈 实 偶 函 数 ) ， 它 可 用 于 无 相 移 的 或 相 移 可 用 其 他 方法 确定 的 模 
糊 传 函数 。 

点 扩散 函数 滤波 器 式 〈8-25) 与 维 纳 滤波 器 间 的 相似 是 十 分 明显 
的 。 当 无 噪声 时 ， 这 两 处 滤 沈 露 都 简化 为 直接 的 去 卷 积 : 当 无 信号 时 ， 
这 两 种 滤波 旨 都 完全 截止 。 然 而 ， 不 同 的 是 点 扩散 函数 滤波 絮 在 模糊 传 
加 函数 F(u,v) 为 零 处 并 不 截止 到 和 零 。 

扩 扩 散 函 数 滤波 桌 具 有 相当 强 的 图 像 复原 能 力 ， 在 某 些 情况 下 其 性 





能 优 于 维 纳 沽 波 嚣 。 点 扩散 函数 滤波 锅 有 时 也 被 叫做 同 态 滤 波 占 。 
(3) 几何 均值 滤波 器 
考 家 如 下 形式 的 复原 滤波 器 传递 函数 。 


一 ]"[ - (8-26) 
[IHuUW| |H(u,v)| +rYP,(u,v)/ Pr(u,v) 


G(u,v)=| 





式 中 : a 和 y 为 正 的 实 常数 。 这 种 滤波 器 是 前 面 讨论 过 的 几 种 滤波 器 
的 一 般 形式 ， 其 传递 函数 具有 参数 a 和 y。 注 意 ， 当 a=1 时 ， 式 (8-26) 
就 成 为 去 卷 积 滤波 器 ， 而 若 令 a=1/2yy=1 ， 则 它 就 变 为 式 (8-15) 形式 的 
功率 均衡 滤波 器 。 

进一步 观察 ， 还 可 注意 到 a=1/2 时 ， 式 《8-26) 定义 的 是 普通 去 卷 积 
和 维 纳 去 卷 积 的 几何 平均 。 因 此 式 〈8-25) 定义 的 滤波 器 的 第 三 个 名 字 
叫做 几何 均值 滤波 器 。 然 而 ， 通 常 将 式 〈8-26) 所 定义 的 更 一 般 的 滤波 
器 称 为 几何 均值 滤波 器 。 

知 式 〈8-26) 中 的 a=0， 就 得 到 了 参数 化 维 纳 滤波 器 。 








H (u,v) 


gd 
[IH(u,v)| +7yP, (u,v)/ Pr (u,v) 


当 Y=1 时 ， 它 就 变 成 了 式 〈8-25) 形式 的 维 纳 去 卷 积 滤波 器 ; 而 当 
Y=0 时 ， 它 就 变 成 了 单纯 的 去 卷 积 。 一 般 来 说 ， 可 通过 选择 y 的 数值 来 获 
得 所 和 希望 的 维 纳 平 滑 效果 。 

式 〈8-26) 代表 一 个 很 一 般 的 复原 滤波 器 ， 可 用 于 具有 线性 、 空 间 
不 变 的 模糊 函数 和 加 性 、 不 相关 噪声 的 情形 。Andrews 和 Hunt 对 在 轻 
微 模糊 的 适度 噪声 条 件 下 式 (8-26〉 所 定义 的 滤波 器 的 复原 能 力 进行 了 
研究 。 其 结果 表明 ， 在 上 述 条 件 下 ， 单 纯 去 卷 积 的 效果 最 差 : 维 纳 滤波 
器 会 产生 超过 人 了 眼 所 希望 的 严重 的 低 通 滤波 效应 ， 在 同样 条 件 下 ，y<1 








的 参数 化 维 纳 滤波 和 几何 均值 似乎 能 给 出 更 令 人 满意 的 结 

[ 例 8.3] 维 纳 滤 波 器 

本 例 采 用 基本 滤波 方法 ， 输 入 正弦 信号 ， 并 添加 高 斯 噪声 ， 通 过 求 
概率 密度 与 功率 谱 曲 线 ， 对 比 普通 的 fi 滤波 和 维 纳 滤波 效果 ， 程 序 如 下 
所 示 。 

% 输 入 信号 

A=1;”% 信 号 的 幅 值 

f=1000; 9% 信 号 的 频率 

fs=10^5; ”% 采 样 频率 

t=(0:999);”% 采 样 点 

Mlag=100; ”% 相 关 函 数 长 度 变量 

x=A*cos(2*pi*f*t/fs); 。% 输 入 正弦 波 信 号 

xmean=mean(x); ”% 正 弦 信 号 均值 

xvar=Var(x,1); 。% 正 弦 信 号 方差 

xn=awgn(X,5); 9% 给 正 弱 信 号 输入 信 噪 比 为 20db 的 高 斯 白 噪 声 

figure(1); 

plot(t,xn) ”% 绘 制 输入 信号 图 像 

title( 输 入 信号 图 像 ); 

xlabel(x 轴 单位 : t/s','color','b"); 

ylabel('y 轴 单位 : VHz,color,b); 

xnmean=mean(xn); ”% 计 算 添 加 噪声 后 的 信号 均值 

xnvar=Var(Xxn,1); 9%6 方 产 

xnms=mean(xn.^2); 9% 均 方 值 

Rxn=xcorr(xn,Mlag,'biased'"); % 自 相关 函数 

figure(2) 

subplot(221); 

plot((-Mlag:Mlag),Rxn) % 绘 制 自 相关 函数 图 


title( 输 入 信号 自 相 关 函 数 图 ) 

[f,xi]=ksdensity(xn); 9% 计 算 输 入 信号 的 概率 密度 
subplot(222); 

plot(xi,f); % 绘 制 概 率 密度 图 像 

title( 输 入 信号 概率 密度 图 像 ) 

X=fft(xn); % 计 算 输 入 信和 号 的 快速 傅立叶 变换 
Px=X.*conj(X)/600; ”% 计 算 信 号 频谱 

subplot(223) 

semilogy(t,Px) ”% 绘 制 在 半 对 数 坐 标 系 下 频谱 图 像 
title(' 输 入 信号 在 半 对 数 坐 标 系 下 频谱 图 像 "); 
xlabel('x 轴 单位 :w/rad','color','b"); 

ylabel('y 轴 单位 :w/Hz",'color','b"); 
pXx=periodogram(xn); % 计 算 输入 信号 的 功率 谱 密 度 
subplot(224); 

semilogy(pxx); ”% 绘 制 在 半 对 数 坐 标 系 下 功率 谱 密 上 度 图 像 
title( 输 入 信号 在 半 对 数 坐 标 系 下 功率 谱 密 上 度 图 像 ); 
xlabel('x 轴 单位 :w/rad','color','b"); 

ylabel('y 轴 单位 :w/Hz",'color','b"); 

%fir 滤 波 

wp=0.4*pi; ”% 通 带 截 止 频 率 

ws=0.6*pi; 9% 阻 带 截 止 频率 

DB=ws*wp; 9% 过 渡 带 宽度 

NO=ceil(6.6*pi/DB); 

M=N0+mod(N0+1,2); % 计 算 位 滤波 器 阶 数 
wc=(wp+ws)/2/pi; % 计 算 理 想 低 通 滤波 器 通 市 截止 频率 
hn=fir1(M,wc); 

yln=filter(hn,1,xn); % 将 输入 信号 通过 fir 滤 波 右 








figure(3) 

plot(y1n); 

title(' 经 过 fi 滤波 器 后 信号 图 像 "); 
xlabel('x 轴 单位 :f/Hz','color','b"); 

ylabel('y 轴 单位 :A/V','color','b"); 
ylnmean=mean(y1n); 
ylnms=mean(y1n.^2); 

ylnvar=var(y1n,1); 
Ryln=xcorr(y1ln,Mlag,'biased'); 

figure(4); 

subplot(221); 

plot((-Mlag:Mlag),Ry1n) 
title( 经 过 位 滤波 堪 后 信号 目 相关 函数 图 像 ); 
[fy1ilj=ksdensity(y1n); 

subplot(222); 

plot(y1i,f); 

title(' 经 过 fi 滤波 器 后 信号 概率 密度 图 像 "); 
Y1=fft(y1n); 

Pyl=Y1.*conj(Y1)/600; 

subplot(223); 

semilogy!(t,Py1); 

title(' 经 过 fr 滤波 器 后 信号 在 半 对 数 坐标 系 下 频谱 图 像 "); 
xlabel('x 轴 单位 :w/rad','color','b"); 
ylabel('y 轴 单位 :w/Hz",'color','b"); 
pyln=periodogram(y1n); 

subplot(224); 

semilogy(py1n); 


title(' 经 过 fir 滤 波 器 后 信号 在 半 对 数 坐 标 系 下 功率 谱 密 度 图 像 ); 
xlabel(x 轴 单位 :w/rad','color','b"); 

ylabel('y 轴 单位 :w/Hz','color','b'"); 

% 维 纳 滤波 

N=100;”% 维 纳 滤 波 器 长 度 

Rxnx=xcorr(xn,x,Mlag,'biased"); % 产 生 输入 信号 与 原始 信号 的 互相 关 














IXDX=Zeros(N,1); 

rxnx(:)=Rxnx(101:101+N-1); 

Rxx=zeros(N,N); 

Rxx=diag(Rxn(101)*ones(],N)); 

for i=2:N 
c=Rxn(101+i)*ones(1,N+1-i); 
Rxx=Rxx+diag(c,i-1)+diag(c,-i+1); 

end 

Rxx; 

h=zeros(N,1); 

h=inv(Rxx)*rxnx; 

yn=filter(h,1,xn); 

figure(5); 

plot(yn) 

title(' 经 过 维 纳 滤波 器 后 信号 图 像 "); 

xlabel('x 轴 单位 :f/Hz','color','b"); 

ylabel('y 轴 单位 :A/V','color','b"); 

ynmean=mean(yn); 

ynms=mean(yn.^2); 


ynvar=var(yn, 1); 


figure(6); 

subplot(221); 

plot((-Mlag:Mlag),Rxnx); 

title(' 经 过 维 纳 滤波 器 后 信号 自 相 关 函 数 图 像 ); 

[f,yi]=ksdensity(yn); 

subplot(222); 

plot(yi,f); 

title(' 经 过 维 纳 滤波 器 后 信号 概率 密度 图 像 ); 

y=fft(yn); 

Py=Y.*conj(Y)/600; 

subplot(223); 

semilogy(t,Py); 

title( 经 过 维 纳 滤波 器 后 信号 在 半 对 数 坐 标 系 下 频谱 图 像 ); 

xlabel('x 轴 单位 :w/rad','color','b"); 

ylabel('y 轴 单位 :w/Hz",'color','b"); 

pyn=periodogram(yn); 

subplot(224); 

semilogy(pyn); 

title(' 经 过 fr 滤波 器 后 信号 在 半 对 数 坐 标 系 下 功率 谱 密 度 图 像 ); 

xlabel('x 轴 单位 :w/rad','color','b"); 

ylabel('y 轴 单位 :w/Hz",'color','b"); 

运行 结果 如 图 8.4 所 示 ， 从 图 8.4 中 可 以 看 出 对 于 该 信号 图 像 添加 相 
应 的 噪声 信号 后 ， 从 上 自 相关 函数 、 概 率 密度 函数 图 像 、 频 详 、 功 率 谱 等 
多 个 角度 进行 了 对 比 ， 结 末 表 明 使 用 维 纳 滤 波 的 效果 要 比 使 用 位 滤波 的 
效果 好 一 些 ， 经 过 位 滤波 的 信号 去 品 效 果 不 太 明显 。 
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tc) 输入 信号 的 相关 处 理 


A 图 8.4 运行 结果 ( 续 ) 
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(g) 维 纳 滤波 后 的 图 像 处 理 


A 图 8.4 运行 结果 〈 续 ) 


8.2 实 中 


图 像 复 原 技 术 早 期 的 成 果 主 要 归功 于 数字 信号 处 理 领 域 中 一 些 技 术 
和 方法 的 引入 ， 如 逆 滤 小 技术 。 随 后 一 些 学 者 发 现 退 化 问题 可 以 利用 状 
态 空 间 、 非 线性 参数 辨识 、 自 适应 理论 等 方法 很 好 地 描述 和 解决 ， 这 些 
方法 具有 典型 的 现代 控制 技术 的 特点 。 控 制 技术 在 复原 扩 术 领域 的 成 功 

















应 用 推进 了 复原 技术 的 发 展 。 在 此 之 前 ， 图 像 复原 所 依据 的 数值 计算 方 
法 也 是 实现 图 像 复原 技术 的 关键 。 本 节 主 要 介绍 数值 计算 方法 与 图 像 复 
原 中 涉及 到 的 几何 变换 。 





图 像 复 原 过 程 中 ， 数 值 计 算是 不 可 避免 的 。 下 面 介绍 几 种 第 用 的 数 
值 计算 方法 : 线性 代数 复原 、 无 约束 复原 、 有 约束 复原 ， 并 介绍 几 个 相 
关 例 子 来 说 明 它 们 的 计算 方法 。 

1. 线性 代数 复原 

如 采 图 像 退化 系统 为 线性 空间 不 变 系统 ， 且 噪声 是 加 性 类 型 时 ， 可 
在 线性 代数 范畴 内 建造 的 图 像 退化 模型 的 基础 上 ， 采 用 代数 方法 进行 数 
值 计算 。 这 种 方法 可 能 比较 适合 那些 相对 于 积分 运算 而 更 喜欢 窍 阵 运 
算 ， 或 相对 于 分 析 连 续 函 数 而 更 喜欢 离散 数学 的 人 。 它 为 复原 滤波 器 的 
数值 计算 提供 了 一 个 统一 的 设计 思路 和 透彻 的 解释 。 由 于 涉及 的 向 量 和 
窍 阵 都 非常 复杂 ， 因 此 线性 代数 方法 可 能 无 法 给 出 一 种 高 效 的 实现 。 但 
依据 线性 代数 方法 得 出 的 复原 技术 可 通过 其 他 方法 得 以 高 效 的 实现 。 

图 8.5 给 出 了 在 研究 离散 复原 问题 时 要 用 到 的 模型 。 其 最 上 一 行 表 
示 了 我 们 希望 的 情形 ， 即 用 一 个 理想 的 量化 器 对 代表 景物 未 退化 图 像 的 














连续 函数 f(x, 内 进行 操作 以 得 到 数字 化 图 像 。 这 将 产生 一 个 行 堆 登 形式 
的 n< x1 列 癌 量 f{， 代 表 着 所 需 的 NxN 数 字 图 像 。 








理想 量化 费 和 于 一 CC 中 
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线性 模糊 理想 量化 器 复原 [f1] 
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理想 量化 器 线性 模糊 gk [f1] 
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4 图 8.5 线性 代数 复原 模型 


图 8.5 中 第 二 行 给 出 一 幅 图 像 被 量化 和 存储 时 ， 实 际 所 发 生 情况 的 
模型 。 景 物 函 数 f(x,y) 被 一 个 线性 操作 h(x,y) 所 模糊 ， 然 后 营 加 上 一 幅 二 
维 噪声 图 像 n(x,y)， 得 到 g(x,y), 随 后 由 一 个 理想 量化 如 生成 行 堆 阁 形式 的 
器 量 g， 它 代表 被 观察 的 NxN 数 字 图 像 ， 然 后 对 这 幅 图 像 进行 复原 操 
作 ， 以 产生 对 原 图 像 f 的 估计 f1。 

虽然 模糊 是 线性 的 ， 但 它 可 能 是 位 移 不 变 的 。 如 果 是 位 移 不 变 的 ， 
它 就 等 于 f(x,y) 与 点 扩散 函数 h(x,y) 的 卷 积 。 如 果 成 像 链 中 包含 不 止 一 个 
操作 环节 ， 它 们 的 影响 统一 通过 h(x,y) 来 体现 。 与 此 类 似 ， 多 个 噪声 源 
也 用 一 个 n(x,y) 来 表示 。 由 于 此 模型 未 考虑 各 种 非 线 性 以 及 信号 相关 的 
噪声 ， 因 此 它 仍 然 不 够 全 面 。 

图 中 的 第 三 行 给 出 了 在 这 里 将 要 分 析 的 模型 。 如 前 ， 一 个 理想 的 量 

















化 器 生成 癌 量 f， 但 它 受 到 离散 线性 操作 HH 的 作用 。 同 时 ， 一 幅 离散 的 、 
堆 合 成 为 列 同 量 形式 的 噪声 图 像 n 被 加 a 到 f 上 形成 列 回 量 形式 的 被 观 察 图 
像 g; 再 通过 一 个 离散 的 复原 操作 来 得 到 原始 图 像 的 估计 。 

人 至此， 被 观察 图 像 的 形成 过 程 可 以 简洁 的 表示 为 





g=Hf+n (8-28) 


式 中 : g、f 和 n 都 是 n2 维 列 向 量 ，H 为 n2 xn? 的 和 矩阵 。 若 模糊 是 位 移 
不 变 的 ， 则 H 为 块 循环 矩阵 。 同 前 ， 要 处 理 的 数字 图 像 应 按 需 要 用 0 填 
充 到 NxN 大 小 。 

要 注意 的 是 ， 现 在 是 在 用 离散 操作 来 模拟 图 像 的 退化 ， 它 包括 两 个 
方面 : 其 一 ， 既 然 可 以 对 退化 过 程 进行 设计 并 加 以 精确 实现 ， 应 该 就 能 
利用 这 个 模型 产生 给 人 深刻 印象 的 仿真 结果 。 例 如 ， 知 选择 一 个 可 逆 的 
退化 过 程 ， 复 原 就 成 了 仅仅 是 数字 技术 的 一 个 练习 。 可 以 首先 对 它 进行 
退化 ， 再 进行 复原 ， 并 得 到 精确 到 舍 入 误差 的 范围 之 内 的 原始 图 像 。 

其 次 ， 现 在 的 任务 是 用 离散 操作 模拟 连续 退化 过 程 。 这 与 早先 要 求 
对 采样 数据 的 离散 处 理 必 须 保 证 确实 能 保留 其 本 来 连续 函数 的 完整 性 这 
一 情况 相 类 似 。 图 像 复 原 的 有 效 性 关键 取决 于 描述 退化 过 程 的 模型 的 精 
确 性 。 

2. 无 约束 复原 

右 n=0 或 者 对 于 噪声 一 无 所 知 ， 则 可 用 如 下 方法 把 复原 问题 当 作 一 
个 最 小 二 乘 问题 来 解决 。 令 e(f1) 为 f1 与 其 近似 向 量 f 之 间 的 残 差 向 量 ， 则 
式 (8-28) 变 为 





g=H/= Hl+e(f) 或 e(f1)=g- Hl (8-29) 





我 们 的 目标 是 使 目标 函数 


wW(f1)=leflll <=le-Hil=(g-H)'(g- Hl) (8-30) 


最 小 化 ， 其 中 ，||alF Va'a 代表 一 个 向 量 的 欧 几 里 得 范 数 ， 即 其 各 
元 素平 方 和 的 平方 根 。 

这 意味 着 我 们 希望 这 样 来 选择 fl， 使 它 被 H 模 糊 后 所 得 到 的 结果 与 
观察 到 的 图 像 g 之 间 的 差 的 均 方 尽 可 能 小 。 由 于 g 本 身 就 是 由 f 经 H 模 糊 得 
到 的 ， 可 以 想象 ， 这 是 一 种 令 人 满意 的 方法 。 若 f 和 f1 这 两 者 被 H 模 糊 的 
结果 接近 相等 ， 则 位 很 可 能 就 是 对 f 的 一 个 良好 估计 。 

令 W(f1) 对 全 的 导数 等 于 零 ， 得 到 
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Sd (8-31) 
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求解 但 ， 得 到 
fl=(H'H)"'H'g=H"g (8-32) 
由 于 孔 为 方 阵 ， 故 后 一 等 式 成 立 。 


式 〈8-32) 给 出 的 就 是 道 滤波 器 。 对 于 位 移 不 变 的 模糊 ，H 为 块 循 
环 矩 阵 。 这 可 以 通过 在 频率 域 用 下 式 进行 卷 积 去 说 明 。 


G(u,v) 


F U,V) = 
Wy H(u,v) 





(8-33) 


若 H(u,v) 有 零 值 ， 则 H 为 奇异 的 ， 无 论 H 1 或 (HIH) 1 都 不 存在 。 
3. 有 约束 最 小 二 乘 复原 
重 写 式 (8-28) 为 





g—Hf=n (8-34) 


考虑 品 声 项 的 一 种 方法 是 在 极 小 化 过 程 中 引入 要 求 式 (8-27) 两 站 
范 数 相等 的 约束 ， 即 


1g= 瑟 HH (8-35) 
现在 ， 可 以 将 问题 归结 为 最 小 化 如 下 目标 函数 。 
W(f1) = +Adl ge- HN -llnll) (8-36) 


式 中 : Q 是 选 来 对 {1 进行 某 性 运算 的 矩阵 ;六 为 一 常数 ， 叫 做 拉 格 
明日 因数 。 通 过 指定 不 同 的 Q， 可 以 达到 不 同 的 复原 目标 。 
如 前 ， 令 W(f1) 对 {1 的 导数 为 零 ， 有 





oW( fl1 | 
~ =20'071-24H'(g -HD)=0 (8.37) 
解 得 
fl=(H'H+7YQ'QO)"'H'g (8-38) 


式 中 : Y=1A 为 一 必须 经 过 调整 ， 以 使 式 〈8-35) 成 立 的 常数 。 这 是 
求 有 约束 最 小 二 乘 复原 的 解 得 通用 方程 式 。 
[ 例 8.4] 利 用 约束 的 最 小 二 乘 方 滤波 复原 模糊 噪声 图 像 
约束 的 最 小 二 乘 方 滤波 在 Matlab 中 是 通过 函数 deconvreg 来 实现 的 。 
该 例 说 明了 如 何 利用 该 函数 复原 模糊 噪声 图 像 。 程 序 如 下 。 
9% 生 成 标准 棋盘 测试 图 像 
f=checkerboard(8); 
% 产 生 空间 滤波 器 
PSF=fspecial(motion',7,45); 
>> PSF 
PSF = 
0 0 0 0 0 0.0145 0 
0 0 0 0.0376 0.1283 0.0145 











(ea 


0 0 0 0.0376 0.1283 0.0376 0 


0 0 0.0376 0.1283 0.0376 0 0 
0 0.0376 0.1283 0.0376 0 0 0 
0.0145 0.1283 0.0376 0 0 0 0 
0 0.0145 0 0 0 0 0 
gb=imfilter(f,PSF,circular ); 
% 产 生 噪 声 模 式 


noise=imnoise(zeros(size(f)),'gaussian',0,0.001); 

g=gb+noise; 

subplot(1,3,1); 

% 将 原 图 像 放大 到 512*512， 并 显示 

imshow(pixeldup({,8),[)); 

subplot(1,3,2); 

% 将 噪声 图 像 放大 到 512*512， 并 显示 

imshow(pixeldup(g,8),[]); 

% 利 用 函数 deconvreg0 〇 复原 模糊 噪声 图 像 

fr=deconvreg(g,PSF,0.4,[1e-7 1e7]); 

subplot(1,3,3); 

imshow(pixeldup(fr,8),[]) 

运行 结果 如 图 8.6 所 示 ， 对 比 噪声 模糊 图 8.6 (b) 和 滤波 后 的 图 
8.6 〈c) ， 可 以 看 出 ， 有 约束 的 最 小 二 乘 方 滤波 一 定 程度 上 能 改善 原 模 
糊 噪声 图 像 的 质量 。 











(a) 产生 的 测试 板 图 像 (b》 使 用 噪声 污染 的 图 像 (c) 使 用 约束 最 小 二 乘 复原 的 图 像 


A 图 8.6 
8.2.2 非 线性 


现实 例子 中 ， 除 了 前 面 讨 t ee s 间 不 变 系统 ， 还 有 许多 不 受 这 
些 条 件 限 制 的 系统 ， 本 节 主 要 讲述 这 些 系统 的 图 像 非 线 性 复原 方法 。 

1. 随 空间 改变 的 系统 

如 果 说 光学 离 焦 与 线性 运动 模糊 是 具有 空间 不 变性 的 线性 操作 ， 那 
人 彗 差 、 像 场 弯曲 以 及 旋转 运动 等 模型 则 是 随 空间 改变 的 。 纠 正 
这 些 退化 的 一 种 直接 而 有 效 的 复原 方法 是 坐标 变换 复原 。 其 思想 是 通过 
对 退化 图 像 进行 几何 变换 ， 使 得 到 的 函数 具有 空间 不 变性 。 随 后 采用 普 
通 的 空间 不 变 复原 方法 对 其 进行 复原 ， 再 用 一 个 和 先前 几何 变换 相反 的 
逆 变 换 将 图 像 复 原 为 原来 的 格式 。 

2. 时 变 模 糊 

200 英 寸 望远镜 的 衍射 极限 分 辨 率 为 0.05 弧 秒 。 
下 ， 大 气 扰动 会 使 分 辨 率 降低 到 2 弧 秒 。 通 过 扰动 的 大 气 层 观 察 星 
就 仿佛 是 通过 一 启运 动 着 的 浴室 门 上 的 花 玻璃 观察 一 个 点 光源 一 es 

在 曝光 时 间 短 的 情况 下 ， 由 于 望远镜 上 非 均 匀 的 大 气 层 造成 的 相位 
扭曲 ， 将 会 产生 一 个 斑点 图 案 。 在 曝光 时 间 较 长 的 情况 下 ， 由 于 大 气 层 
在 变化 ， 其 扰动 将 使 斑点 图 案 游 动 。 因 此 ， 长 时 间 的 曝光 使 这 些 游 动 的 
光斑 累积 成 一 个 远 远 超过 望远镜 的 衍射 极限 点 扩散 函数 的 相当 大 的 模 
































类 。 由 于 在 拍摄 暗淡 星体 的 照 斤 时 必须 长 时 间 上 曝光 ， 大 气 扰 动 限制 了 地 
面 观 测 的 天 文 分 辨 率 。 

在 空间 域 进行 时 间 平 均 ， 等 效 于 在 频 域 对 复 频谱 的 平均 。 如 此 得 到 
的 时 间 平 均 传 递 浮 数 在 远 低 于 望远镜 衍射 极限 的 频率 处 束 下 降 到 零 ， 
此 在 有 随机 相位 畸变 的 情况 下 ， 时 间 平 均 带 来 的 害处 比 好 处 多 。 

Labeyrie 通 过 实验 证 明 ， 点 星体 图 像 的 时 间 平 均 功 率 谱 一 直 分 布 到 
衍射 极限 以 外 。 这 意味 着 大 气 层 的 相位 随机 波动 在 图 像 的 功率 谐 中 被 平 
均 掉 了 。 他 采用 了 如 下 的 复原 技术 。 首 先 获 得 欲 观测 的 天 体 和 一 个 参照 
的 点 星体 两 者 的 时 间 平 均 功 率 谱 ， 然 后 通过 将 该 天 体 的 功率 谱 除 以 点 星 
体 的 功率 谱 实 现 去 卷 积 ， 所 得 结果 就 是 对 未 知 天 体 的 衍射 极限 功率 谱 的 
估计 ， 将 其 逆 变 换 就 得 到 该 天 体 的 自 相 关 函 数 。 由 于 相位 信息 在 功率 谱 
中 被 丢失 了 ， 天 体 无 法 准确 地 重建 ， 但 用 自 相 关 函 数 足 以 认 清 双星 和 其 
他 可 能 感 兴趣 的 天 体 。 

Knox 将 Labeyrie 的 方法 进一步 推广 ， 使 其 复原 相位 信息 ， 这 样 即 使 
在 相对 恶人 劳 的 观察 条 件 下 也 能 得 到 衍射 极限 图 像 。 与 Labeyrie 类 似 ， 他 
用 短 时 曝光 功率 谱 的 整体 平均 来 确定 目标 的 功率 谱 ， 相 位 信息 是 通过 即 
时 功率 谱 的 整体 自 相 关 来 获得 的 。 

3. 非 平 稳 信 号 与 噪声 

本 前 面 讨论 的 着 波 器 均 假 设 信号 和 噪声 是 平稳 的 。 平 稳 对 于 图 像 
来 说 意味 着 局 部 (算出 的 ) 功率 谱 在 整 幅 图 像 上 是 相同 或 近似 相同 的 。 
不 过 ， 通 常 并非 如 此 。 实 际 上 ， 大 多 数 图 像 是 高 度 不 平稳 的 。 以 一 张 人 人 
脸 的 照片 为 例 ， 显 然 前 额 区 的 功率 谱 比 眼睛 处 的 功率 谱 要 含有 较 少 的 高 
频 分 量 。 很 大 的 一 类 图 像 可 被 认为 是 由 被 梯度 相对 高 的 边缘 所 隔 开 的 、 
相对 平坦 的 区 域 所 组 成 。 

有 几 种 常见 的 噪声 也 不 能 用 平稳 随机 过 程 来 精确 建 模 。 比 如 底片 的 
颗粒 噪声 ， 在 底片 的 低 密度 区 几乎 不 存在 ， 但 随 着 密度 的 增加 噪声 也 相 
应 增强 。 密 度量 化 器 ， 由 于 其 在 强度 传感器 后 接 有 对 数 放 大 器 ， 而 对 数 


















































放大 器 的 弱 信 号 增益 是 最 大 的 ， 因 此 在 暗 区 域 就 会 产生 相对 比较 高 的 品 
js 
4. 使 用 Lucky-Richardson 算 法 的 欠 代 非 线性 复原 
Lucky-Richardson 〈L-R) 算法 是 非 线 性 方法 中 一 种 典型 的 算法 。L- 
R 算 法 是 从 最 大 似 然 公式 中 引出 来 的 ， 在 这 个 方程 中 ， 图 像 是 用 泊 松 统 
计 加 以 模型 化 的 。 当 下 面 这 个 从 代 收敛 时 ， 模 型 的 最 大 似 然 函数 可 以 得 
到 一 个 令 人 满意 的 方程 ， 即 
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和 (x, y) = 天 (x, y) [A(—x,—y)* SC 


~ ] (8-39) 
PRT 





如 前 边 一 样 ，“” 代 表 卷 积 ，/ 是 未 退化 图 像 的 估计 。 这 个 算法 的 


迭代 本 质 是 显而易见 的 。 它 的 非 线性 本 质 是 在 方程 右边 用 /来 除 产 生 
的 。 

束 像 大 多 数 非 线性 方法 一 样 ， 关 于 什么 时 候 停 止 L-R 算 法 通常 很 难 
回答 。 通 常 ， 接 下 来 的 途径 是 对 于 给 定 的 应 用 ， 在 我 们 获得 满意 的 结 
时 ， 观 察 输出 并 终止 算法 。 

[ 例 8.5] 使 用 L-R 算 法 复原 模糊 噪声 图 像 

对 于 前 面 提 到 的 系统 ， 一 般 采 用 迭代 非 线 性 复原 的 方法 。 在 Matlab 
工具 箱 中 选择 的 算法 是 L-R 算 法 。 该 算法 是 由 名 为 deconvlucy 的 函数 完 
成 的 。 程 序 如 下 。 

% 产 生 标准 测试 图 像 ，64*64 像 素 

f=checkerboard(8); 

subplot(3,2, 1); 

% 放 大 显示 

imshow(pixeldup(f,8)); 

% 产 生 大 小 为 7*+7 且 标准 偏差 为 10 的 高 斯 滤波 器 























PSF=fspecial('gaussian',7,10); 

% 用 上 述 滤波 器 模糊 图 像 f{， 在 其 上 添加 均值 为 0， 标 准 偏 差 为 0.01 
的 高 斯 噪声 

SD=0.01; 

g=imnoise(imfilter(f,PSF),'gaussian',0, SD 人 2); 

subplot(3,2,2); 

imshow(pixeldup(g,8)); 

% 使 用 Lucy-Richardson 算 法 对 图 像 复 原 

DAMPAR=10*SD; 

LIM=ceil(size(PSF,1)/2); 

WEIGHT=zeros(size(g)); 

9%weight 数 组 的 大 小 是 64*64， 并 且 有 值 为 0 的 4 像素 宽 的 边界 ， 其 
像素 都 是 1 

WEIGHT(LIM+1:end-LIM,LIM+1:end-LIM)=1; 

9% 设 置 迭 代 次 数 为 5 

NUMIT=5; 

% 利 用 deconvlucy 来 实现 复原 

f5=deconvlucy(g,PSF,NUMIT,DAMPAR,WEIGHT); 

subplot(3,2,3); 

imshow(pixeldup(f{5,8)); 

% 设 置 达 代 次 数 为 10 

NUMIT=10; 

f6=deconvlucy(g,PSF,NUMIT,DAMPAR,WEIGHT); 

subplot(3,2,4) 

imshow(pixeldup(f6,8)); 

% 设 置 迭 代 次 数 为 20 

NUMIT=20; 


小 


f7=deconvlucy(g,PSF,NUMIT,DAMPAR,WEIGHT); 

subplot(3,2,5); 

imshow(pixeldup({7,8)); 

% 设 置 和 迭代 次 数 为 100 

NUMIT=100; 

f8=deconvlucy(g,PSF,NUMIT,DAMPAR,WEIGHT); 

subplot(3,2,6); 

imshow(pixeldup(f8,8)); 

运行 结果 如 图 8.7 所 示 ， 图 8.7 〈c) 是 经 过 5 次 欠 代 后 的 结果 ， 虽 然 
图 像 已 经 稍微 有 些 改进 了 ， 但 是 仍旧 模糊 。 图 8.7 〈d) 和 图 8.7 (e) 是 
迭 代 10 次 和 20 次 的 结果 ， 进 一 步 增 加 迭代 次 数 在 复原 结 末 上 没有 显 滥 改 
进 ， 图 8.7 (f) 是 从 代 100 次 的 结果 ， 这 幅 图 像 只 是 比 使 用 了 20 次 迭代 后 
获得 的 图 像 稍 微 清 晰 和 明亮 了 一 些 。 








(a) 原 图 像 (b) 由 高 斯 噪声 污染 和 模糊 的 图 像 





(c) 对 图 像 (b) 用 L-R 算法 达 代 5 次 后 的 复原 图 像 (d) 对 图 像 (b) 用 L-R 算法 碗 代 10 次 后 的 复原 图 像 





(e) 对 图 像 (b) 用 L-R 算法 迭代 20 次 后 的 复原 图 像 ”(f) 对 图 像 (b) 用 L-R 算法 友 代 100 次 后 的 复原 图 像 


A 图 8.7 运行 结 





随 着 基于 互联 网 的 图 像 处 理应 用 在 不 断 增 长 ， 彩 色 图 像 处 理 已 经 成 
为 一 个 重要 领域 。 本 章 以 介绍 色彩 模型 为 主 ， 并 将 涉及 数字 域 彩色 处 理 
方面 的 基本 概念 与 第 识 。 

本 章 的 知识 和 技术 热点 

e 彩色 基础 

e 彩色 模型 及 其 相互 转换 

e 全 彩色 图 像 处 理 

本 章 的 典型 案例 分 析 

e 彩色 补偿 与 色彩 平衡 





9.1 彩色 基础 


大 和 干 世 界 ， 光 彩 绚丽 ， 色 彩 让 世界 变 得 更 加 迷人 。 那 么 ， 色 彩 是 什 
么 呢 ? 色 彩 又 有 什么 特性 呢 ? 在 17 世 纪 60 年 代 ， 人 们 还 普遍 认为 白光 是 
一 种 纯 的 没有 其 他 颜色 的 光 ， 而 彩色 光 是 一 种 不 知 何故 发 生变 化 的 光 。 
为 验证 该 假设 ， 牛 顿 让 一 束 太阳 光 透 过 一 面 三 棱镜 ， 光 在 墙 上 被 分 解 为 
7 种 不 同 的 颜色 ， 即 红 、 橙 、 黄 、 绿 、 青 、 蓝 、 紫 ， 后 来 我 们 称 之 为 光 
谱 ， 如 图 9.1 所 示 。 








A 图 9.1 牛顿 发 现 彩色 谱 现 象 


正 是 由 于 这 些 红 、 柳 、 黄 、 绿 、 青 、 蓝 、 紫 基础 色 有 不 同 的 色谱 ， 
才 形 成 了 表面 上 颜色 单一 的 白色 光 。 虽 然 人 的 大 脑 感知 和 理解 颜色 所 遵 
循 的 生理 心理 过 程 还 远 没 有 了 解 透 彻 ， 但 颜色 的 物理 性 质 得 到 了 许多 实 
验 和 理论 结果 的 文 持 。 


9.1.1 什么 是 彩色 


彩色 是 物体 的 一 种 属性 ， 就 像 纹理 、 形 状 、 重 量 一 样 。 通 常 ， 它 依 
赖 于 3 个 方面 的 因素 。 

e 光源 一 一 照射 光 的 谱 性 质 或 谱 能 量 分 布 。 

e 物体 一 一 被 照射 物体 的 反射 性 质 。 

e 成 像 接 收费 〈 了 眼睛 或 成 像 传 感 占 ) 光谱 能 量 吸收 性 质 。 

其 中 ， 光 特性 是 颜色 科学 的 核心 。 假 如 光 是 没有 颜色 的 〈 消 色 的 ， 
如 观察 者 看 到 的 黑白 电视 的 光 ) ， 那 么 它 的 属性 仅仅 是 膨 度 或 者 数值 。 
可 以 用 灰 度 值 来 描述 襄 度 ， 它 的 范围 从 黑 到 灰 ， 最 后 到 上 白 。 

而 对 于 彩色 光 ， 我 们 通常 用 3 个 基本 量 来 描述 其 光源 的 质量 : 辐射 
率 、 光 强 和 党 度 。 











(1) 辐射 紊 是 从 光源 流出 能 量 的 总 量 ， 通 常用 所 特 (W) 上 度量 。 
(2) 光 强 用 流明 度量 ， 它 给 出 了 观察 者 从 光源 接收 的 能 量 总 和 的 


闻 
tn 


(3) 亮度 是 彩色 强度 概念 的 具体 化 。 它 实际 上 是 一 个 难以 度量 的 
主 关 描绘 。 

同样 作为 能 量 的 上 度量， 辐射 率 与 光 强 却 往往 没有 必然 的 联系 。 例 
如 ， 在 进行 X 光 检查 时 ， 光 从 X 射 线 源 中 发 出 ， 它 是 具有 实际 意义 上 的 
能 量 的 。 但 由 于 其 处 于 可 见 光 范 围 以 外 ， 作 为 观察 者 很 难 感觉 到 。 因 而 
对 我 们 来 说 ， 它 的 光 强 几乎 为 0。 





9.1.2 我 们 目 彩色 


人 类 能 够 感受 到 的 物体 的 颜色 是 由 物体 的 反射 光 性 质 决 定 的 。 如 图 
9.2 所 示 ， 可 见 光 是 由 电磁 波谱 中 较 军 的 波段 组 成 的 。 一 个 物体 反射 的 
光 如 果 在 所 有 可 见 光 波长 范围 内 是 平衡 的 ， 则 站 在 观察 者 的 角度 它 束 是 
白色 的 ， 如 果 物 体 仅 对 有 限 的 可 见 光谱 范围 反射 ， 则 物体 表现 为 某 种 特 
定 颜色 。 例 如 ， 反 射 波 长 范围 在 450 一 500nm 之 间 的 物体 呈现 蓝 色 ， 它 
吸收 了 其 他 波长 光 的 多 数 能 量 ， 而 如 果 物 体 吸收 了 所 有 的 入 射 光 ， 则 和 它 
将 呈现 为 黑色 。 





0. 005nm 0. 01nm 











A 图 9.2 可 见 光 波长 范围 
9.1.3 三 原色 


据 详细 的 实验 结果 ， 人 眼中 负责 彩色 感知 的 细胞 中 约 有 65% 对 红 光 
敏感 ，33% 对 绿 光 敏感 ， 而 只 有 29% 对 蓝光 敏感 。 正 是 人 眼 的 这 些 吸 收 特 
性 决定 了 被 看 到 的 彩色 是 通常 所 谓 的 原色 红 (R) 、 绿 (G) 、 蓝 (B) 
的 各 种 组 合 。 国 际 照明 委员 会 CIE) 规定 以 蓝 =435.8nm、 绿 
=546.1nm、 红 =700nm 作 为 主 原色 ， 红 (R) 、 绿 (G) 、 葛 (B) 也 因 
此 被 称 为 三 原色 。 








在 图 9.3 所 示 的 CIE 色 度 图 中 ， 最 外 围 的 轮廓 对 应 着 所 有 的 可 见 光 谱 
色 ， 在 其 边缘 上 标 出 了 对 应 的 波长 值 ( 以 nm 为 单位 ) ， 该 轮廓 之 内 的 
区 域 包含 了 所 有 的 可 见 颜 色 。 如 果 将 色 度 图 中 的 三 色 点 两 两 连接 成 一 个 


三 角形 ， 则 该 三 角形 内 的 任何 颜色 都 可 以 由 这 3 种 原色 的 不 同 混合 产 
4 
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A 图 9.3 CIE 色 度 图 


我 们 看 到 ， 图 9.3 中 由 R、G、B 3 种 标准 原色 所 连 成 的 三 角形 并 不 
能 涵盖 整个 可 见 颜 色 区 域 ， 这 说 明 仅 使 用 三 原色 并 不 能 得 到 所 有 的 可 见 
颜色 。 事 实 上， 图 9.3 中 的 三 角形 区 域 对 应 着 典型 的 RGB 监视 占 所 能 够 
产生 的 颜色 范围 ， 称 为 彩色 全 域 ， 而 在 三 角形 内 不 规则 的 区 域 表 示 高 质 
量 的 彩色 打印 设备 的 彩色 域 。 





9.1.4 计算 机 中 的 颜色 表示 


在 计算 机 中 ， 显 示 器 的 任何 颜色 〈 色 彩 全 域 ) 都 可 以 由 3 种 颜色 
红 、 绿 、 监 组 成 ， 称 为 三 基色 。 每 种 基色 的 取 值 范围 是 0 一 255。 任 何 
颜色 都 可 以 用 这 3 种 颜色 按 不 同 的 比例 混合 而 成 ， 这 就 是 三 原色 原理 。 
在 计算 机 中 ， 三 原色 的 原理 可 以 这 样 解释 。 

e 计算 机 中 的 任何 颜色 都 可 以 由 3 种 颜色 按 不 同 的 比例 混合 而 成 ; 
而 每 种 闫 色 都 可 以 分 解 成 3 种 基本 颜色 。 

e 三 原色 之 间 是 相互 独立 的 ， 任 何 一 种 颜色 都 不 能 由 其 余 的 两 种 颜 
色 来 组 成 。 

e 混合 色 的 饱和 度 由 3 种 颜色 的 比例 来 决定 。 混 合 色 的 亮度 为 3 种 颜 
色 的 亮度 之 和 。 

形成 任何 特殊 颜色 需要 的 红 、 绿 、 蓝 的 分 量 称 为 三 色 值 ， 我 们 可 以 
用 X、Y 和 2Z 分 别 表 示 。 此 时 ， 一 种 颜色 可 由 三 色 值 系数 定义 为 








X+Y+Z 
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和 站 业 书包 
_ Z 
“” 琶 二 到 二 到 

显然 : 
XxX+y+2z=] 
9.2 彩色 模型 


彩色 模型 也 称 彩色 空间 或 彩色 系统 ， 是 用 来 精确 标定 和 生成 各 种 颜 
色 的 一 套 规则 和 定义 ， 它 的 用 途 是 在 某 些 标准 下 用 通常 可 接受 的 方式 简 
化 彩色 规范 。 彩 色 模 型 通常 可 以 采用 华 标 系统 来 描述 ， 而 位 于 系统 中 的 
每 种 颜色 都 由 坐标 空间 中 的 单个 点 来 表示 。 

如 今 使 用 的 大 部 分 彩色 模型 都 是 面向 应 用 的 或 是 面向 硬件 的 ， 比 如 
众所周知 的 针对 彩色 监视 器 的 RGB ( 红 、 绿 、 蓝 ) 模型 ， 以 及 面向 彩 
色 打 印 机 的 CMY ( 青 、 深 红 、 黄 ) 和 CMYK ( 青 、 深 红 、 黄 、 黑 ) 模 
型 。 而 HSI (色调 、 饱 和 度 、 亮 度 ) 模型 非常 符合 人 眼 描述 和 解释 颜色 
的 方式 。 此 外 ， 目 前 广泛 使 用 的 彩色 模型 还 有 HSV 模 型 、YUV 模 型 、 
YIQ 模 型 、Lab 模 型 等 。 下 面 将 分 别 介绍 这 些 彩 色 模 型 并 给 出 它们 与 最 
为 常用 的 RGB 模型 之 间 的 转换 方式 。 





9.2.1 RGB 模型 


RGB 模型 是 工业 界 的 一 种 颜色 标准 ， 是 通过 对 红 〈Red) 、 绿 


(Green) 、 蓝 〈Blue) 3 个 颜色 亮度 的 变化 以 及 它们 相互 之 间 的 县 加 来 

得 到 各 种 各 样 的 颜色 的 。 该 标准 几乎 包括 了 人 类 视觉 所 能 感知 的 所 有 颜 
色 ， 是 目前 运用 最 广 的 颜色 模型 之 一 。 

1. 理论 基础 

RGB 彩色 空 ee 红 、 绿 和 
蓝 位 于 立方 体 的 3 个 顶点 上 ; 青 、 深 红 和 黄 位 于 另外 3 个 顶点 上 ; 黑色 在 
ee te a 
线 分 布 ; 不 同 的 颜色 处 在 立方 体 上 或 其 内 部 ， 因 此 可 以 用 1 个 三 维 向 量 
来 表示 。 例 如 ， 在 所 有 颜色 均 已 归 一 化 至 [0，]] 的 情况 下 ， 蓝 色 可 表示 
为 《0，0，1) ， 而 灰色 可 由 向 量 〈0.5，0.5，0.5) 来 表示 。 

在 RGB 模型 中 ，3 个 图 像 分 量 组 成 了 所 要 表示 的 图 像 ， 而 每 一 个 分 
量 图 像 都 是 其 原色 图 像 ， 如 图 9.5 所 示 。 当 送 入 RGB 监视 器 时 ， 这 3 个 分 
量 图 像 便 在 屏 上 混合 产生 一 幅 合成 的 彩色 图 像 。 

在 RGB 空间 中 ， = 像 系 的 比特 数 叫 做 像素 深度 。RGB 图 
像 的 3 个 红 、 绿 、 蓝 分 量 图 像 都 是 一 幅 8bit 图 像 ， 则 每 一 个 彩色 像素 有 
24bit 深 度 。 因 此 ， 全 彩色 图 像 常 用 来 定义 24bit 的 彩色 图 像 ， 颜 色 总 数 是 
(28)3 =16 777 216。 

RGB 模型 最 常见 的 用 途 就 是 显示 器 系统 ， 彩 色 阴 极 射线 管 和 彩色 光 
栅 图 形 显 示 器 都 使 用 、G、B 数 值 来 驱动 R、G、B 电 子 枪 发 射电 子 ， 并 
分 别 激发 严 光 屏 上 的 R、G、B 3 种 颜色 的 荧光 粉 发 出 不 同 亮度 的 光线 ， 
并 通过 相 加 混合 产生 各 种 颜色 。 扫 描 仪 也 是 通过 吸收 原稿 经 反射 或 透射 
而 发 送出 来 的 光线 中 的 R、G、B 成 分 ， 并 用 它 来 表示 原稿 的 颜色 。RGB 
彩色 空间 是 与 设备 相关 的 彩色 空间 ， 因 此 不 同 的 扫描 仪 扫 描 同一 幅 图 
像 ， 会 得 到 不 同色 彩 的 图 像 数 据 ， 不 同型 号 的 显示 器 显示 同一 幅 图 像 ， 
也 会 有 不 同 的 色彩 显示 结果 。 
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(a) 原 图 像 rgb.tif (b) 红色 分 量 


关闭 计算 机 Ei 





(c) 绿色 分 量 (d) 蓝 色 分 量 


和 图 9.5 RGB 图 像 的 3 个 分 量 ， 注 意图 (a) 中 RGB 图 像 的 不 同 颜色 在 其 
分 量 图 中 的 对 应 强度 。 





注意 

显示 器 和 扫 摘 仪 使 用 的 RGB 空间 与 CIE 标 准 中 RGB 真实 三 原色 彩色 
系统 空间 是 不 同 的 ， 后 者 是 与 设备 无 关 的 彩色 空间 。 

2. Matlab 实 现 

在 Matlab 中 一 幅 RGB 图 像 可 表示 为 一 个 MxNx3 的 三 维 和 矩阵。 其 中 每 
一 个 彩色 像素 都 在 特定 空间 位 置 的 彩色 图 像 中 对 应 红 、 绿 、 蓝 3 个 分 
量 。 分 量 图 像 的 数据 类 型 决定 了 它们 的 取 值 范 围 。 若 一 幅 RGB 图 像 的 数 
据 类 型 是 double， 则 每 个 分 量 图 像 的 取 值 范围 为 [0, 1]， 而 如 果 数 据 类 型 
为 uint8 或 uint16， 则 每 个 分 量 图 像 的 取 值 范围 分 别 是 [0, 255] 或 [0, 65 
535]。 

e 图 像 合 成 

如 果 令 PR、PG、PB 分 别 代表 3 种 RGB 分 量 。 那 么 一 幅 RGB 图 像 就 
是 利用 cat( 级 联 ) 操作 符 将 这 些 分 量 图 像 组 合成 彩色 图 像 : 

RGB_image=cat(3, PR, PG, PB); % 将 PR、PG、PB3 个 矩阵 在 第 3 个 
维度 上 进行 级 联 

注意 在 上 述 cat 操 作 中 ， 图 像 应 按照 R、G、B 的 顺序 放置 。 如 果 所 
有 的 分 量 图 像 都 相等 ， 则 结果 将 是 一 幅 灰 度 图 像 。 

e 分 量 提取 


令 RGB_image 代 表 一 幅 RGB 图 像 ， 下 面 的 命令 可 以 提取 3 个 分 量 








PR=RGB_image(:,:,1); 
PG=RGB_image(:,:,2); 
PB=RGB_image(:,:,3); 


9.2.2 CMY、CMYK 模 型 


1. CMY 模 型 

CMY 模 型 (Cyan、Magenta、Yellow) 是 采用 青 、 品 红 、 黄 色 3 种 
基本 原色 按 一 定 比 例 合 成 颜色 的 方法 。 由 于 色彩 的 显示 不 是 直接 来 自 于 
光线 的 色彩 ， 而 是 光线 被 物体 吸收 掉 一 部 分 之 后 反射 回来 的 剩余 光线 所 
产生 的 ， 因此 CMSY 模 型 又 和 称 为 减 色 法 混 色 模型 。 当 光线 都 被 吸收 时 成 
为 黑色 ， 都 被 反射 时 成 为 白色 。 

像 CMY 模 型 这 样 的 减 色 混合 模型 正好 适用 于 彩色 打印 机 和 复印 机 
这 类 需要 在 纸 上 沉 积 彩色 颜料 的 设备 ， 因 为 颜料 不 是 像 显示 器 那样 发 出 
颜色 ， 而 是 反射 颜色 。 例 如 ， 当 青色 颜料 涂 才 的 表面 用 白光 照射 时 ， 从 
该 表面 反射 的 不 是 红 光 ， 而 是 从 反射 的 白光 中 减 去 红色 而 得 到 的 青色 
(白光 本 身 是 等 量 的 红 、 绿 、 蓝 光 的 组 合 ) 。CMY 模型 的 颜料 混合 效 
果 如 图 9.6 所 示 ， 注 意 这 里 的 混合 是 原色 的 相 减 ， 与 RGB 模型 的 混合 
好 相反 。 





黄 





品 红 


车 
月 


蓝 


A 图 9.6 CMY 模 型 的 颜色 混合 〈 原 色相 减 ) 


2. CMYK 模 型 





由 图 9.6 可 见 ， 等 量 的 颜料 原色 〈 青 、 品 红 和 黄 ) 可 以 混合 产生 黑 
色 。 然 而 在 实际 当中 ， 通 过 这 些 颜 色 混 合 产生 的 黑色 是 不 纯 的 。 因 此 ， 
为 产生 真正 的 黑色 (黑色 在 打印 中 起 主要 作用 〉 ， 专 门 在 CMY 模 型 中 
加 入 了 第 4 种 颜色 一 一 黑色 ， 从 而 得 到 了 CMYK 彩 色 模 型 。 这 样 当 出 版 
商 说 到 “四 色 打 印 * 时 ， 是 指 CMY 彩 色 模 型 的 3 种 原色 再 加 上 黑色 。 

3. RGB 与 CMY 之 间 的 转换 及 其 实现 

RGB 与 CMY 之 间 的 转换 公式 如 下 。 





C ] R R ] G&G 
M |=|1|-|G G|=|11=-| 4 
Y ] B B ] 此 


其 中 ， 假 设 所 有 的 颜色 值 都 已 经 归 一 化 到 范围 [0,1]。 

e Matlab 实 现 

在 Matlab 中 可 以 通过 imcomplement 函 数 方便 地 实现 RGB 和 CMY 之 间 
的 相互 转换 。 

cmy = imcomplement (rgb); 

rgb = imcomplement (cmy); 

[ 例 9.1] 从 RGB 转 换 到 CMY。 

[= imread(’../plane.bmp’); 

cmy = imcomplement(l); 

figure, imshow(cmy); 

上 面 的 代码 将 RGB 图 像 plane.bmp 转 换 到 CMY 空 间 下 ， 结 果 如 图 9.7 
所 示 。 为 了 观察 效果 ，9.7 (b) 中 的 图 像 是 把 CMY 分 量 直 接 以 RGB 格 
式 来 显示 的 ， 而 事实 上 转换 只 是 同一 幅 图 像 在 不 同色 彩 空间 中 的 两 种 表 
示 ， 惑 像 同 一 幅 图 像 可 以 在 空间 域 和 频 域 中 描述 一 样 。 
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(a) 原 图 像 plane.bmp (b) 转换 后 的 CMY 图 像 〈 以 RGB 的 格式 来 显示 ) 
A 图 9.7 RGB 转 CMY 效 果 图 
9.2.3 HSI 模 型 


HSI 模型 是 从 人 的 视觉 系统 出 发 ， 直 接 使 用 颜色 三 要 素 色 调 
CHue) 、 饱 和 度 〈Saturation) 和 亮度 〈Intensity， 有 时 也 翻译 作 密 度 
或 灰 度 ) 来 描述 颜色 。 

e 亮度 是 指 人 有 眼 感 觉 光 的 明暗 程度 。 光 的 能 量 越 大 ， 亮 度 越 大 。 

e 色调 是 彩色 最 重要 的 属性 ， 决 定 颜色 的 本 质 ， 由 物体 反射 光线 中 
占 优 势 的 波长 来 决定 ， 不 同 的 波长 产生 不 同 的 颜色 感觉 ， 我 们 叫 某 一 种 
颜色 为 红 、 橙 、 黄 ， 这 就 是 说 我 们 在 规定 一 种 色调 。 

e 饱和 度 是 指 颜 色 的 深浅 和 浓淡 程度 ， 饱 和 度 越 高 ， 颜 色 越 深 。 饱 
和 度 的 深浅 和 白色 的 比例 有 关 ， 白 色 比 例 越 多 ， 饱 和 度 越 低 。 

HSI 彩 色 空 间 可 以 用 一 个 圆锥 空间 模型 来 描述 ， 如 岁 9.8 所 示 。 我 们 
通常 把 色调 和 饱和 度 统称 为 色 度 ， 用 来 表示 颜色 的 类 别 与 深浅 程度 。 在 
图 9.8 中 圆锥 中 间 的 横 截 面 圆 就 是 色 度 圆 ， 而 圆锥 向 上 或 向 下 延伸 的 便 


征 亮 度 分 量 的 表示 。 














A 图 9.8 HSI 模 型 示意 图 





由 于 人 的 视觉 对 亮度 的 敏感 程度 远 强 于 对 颜色 浓淡 的 敏感 程度 ， 为 
了 便于 颜色 处 理 和 识别 ， 人 的 视觉 系统 经 常 采 用 HSI 彩 色 空 间 ， 它 比 
RGB 彩色 空间 更 符合 人 的 视觉 特性 。 此 外 ， 由 于 HSI 空 间 中 亮度 和 色 度 
具有 可 分 离 特性 ， 使 得 图 像 处 理 和 机 器 视觉 中 大 量 灰 度 处 理 算法 都 可 在 
HSI 彩 色 空 间 中 方便 地 使 用 。 

HSI 彩 色 空 间 和 RGB 彩色 空间 只 是 同一 物理 量 的 不 同 表 示 法 ， 因 而 
它们 之 间 存 在 着 转换 关系 。 下 面 将 介绍 一 下 ，RGB 到 HSI 的 彩色 转换 和 
HSI 到 RGB 的 彩色 转换 。 

1. 从 RGB 到 HSI 的 彩色 转换 及 其 实现 

给 定 一 幅 RGB 格 式 的 图 像 ， 每 一 个 RGB 像 素 和 HH 分 量 可 用 下 面 的 公 
式 得 到 。 





0,(B<G) z 
: (9-1) 
360-0,(B>G) 


此 处 


| 1|(R-G)+(R-2B)| | 
0 = arccos 一 
|(R-G) +(R-G)(G-B) | , | 


饱和 度 分 量 由 下 式 给 出 。 


S=1- 一 [min (R,G, B)| (9-2) 
(R+G+8B) 


最 后 ， 强 度 分 量 为 
1 = 二 (R+G+ 月 (9-3) 


假定 RGB 值 归 一 化 为 [0，1] 范 围 内 ， 色 调 可 以 用 式 (9-1) 得 到 的 值 
除 以 360°? 归 一 化 为 [0，1] 施 围 内 ， 而 其 他 两 个 HSI 分 量 已 经 在 [0，1] 范 围 
之 内 。 

e Matlab 实 现 

下 面 给 出 一 个 实现 RGB 转换 到 HSI 的 Matlab 函 数 rgb2hsi， 读 者 可 
以 在 金 羽 图 书 论坛 (http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 "板块 与 
本 书 同名 的 主题 帖子 附件 的 第 9 章 的 code 目 录 中 找到 它 。 

function hsi = rgb2hsi(rgb) 

% hsi=rgb2hsi(rgb) 把 一 幅 RGB 图 像 转换 为 HSI 图 像 ， 

% 输入 图 像 是 一 个 彩色 像素 的 MxNx3 的 数组 ， 

% 其 中 每 一 个 彩色 像素 都 在 特定 空间 位 置 的 彩色 图 像 中 对 应 红 、 
绿 、 蓝 3 个 分 量 。 


9% 假如 所 有 的 RGB 分 量 是 均衡 的 ， 那 么 HSI 转 换 就 是 未 定义 的 。 


% 输入 网 像 可 能 是 double《〈 取 值 范 围 是 [0, 1]) ，uint8 或 uint16。 
% 

% 输出 HSI 图 像 是 double， 

% 其 中 hsi(:, :, 1) 是 色 度 分 量 ， 它 的 范围 是 除 以 2*pi 后 的 [0, 1]; 
% hsi(:, :, 2) 是 饱和 度 分 量 ， 范 围 是 [0, 1]; 

% hsi(:, :, 3) 是 亮度 分 量 ， 范 围 是 [0, 1]。 

% 抽取 图 像 分 量 

rgb = im2double(rgb); 

r= rgb(:, :, 1); 

g = rgb(:, >， 2); 

b= rgb(:, :, 3); 

% 执行 转换 方程 

num = 0.5*((r - g) + (r - b)); 

den = sqrt((Y - g).^2 + (r-b).*(g -b)); 

theta = acos(num./(den + eps)); % 防 止 除数 为 0 

H = theta; 

H(b > g) = 2*pi - H(b > g); 

H = H/(2*pi); 


num = min(min(r, g), b); 








den=r+g+b; 

den(den == 0) = eps; % 防 止 除数 为 0 

S=1-3.*num./den; 

H(S == 0) = 0; 

[= (r+g+b)/3; 

% 将 3 个 分 量 联 合成 为 一 个 HSI 图 像 

hsi = cat(3, H, S, D); 

下 面 是 一 个 调用 rgb2hsi 函 数 的 程序 段 ， 它 将 RGB 图 像 plane.bmp 转 


换 至 HSI 空 间 。 
>>figure; 
Subplot(1,2,1); 
rgb=imread('plane.bmp'); 
imshow(Tgb);title(Tgb); 
subplot(1,2,2); 
hsi=rgb2hsi(rgb); 
imshow!(hsi);title('hsi'); 


转换 效果 如 图 9.9 所 示 。 


Os 
¢ 


(a) RGB 原 图 (b) 转换 后 HSI 图 (以 RGB 格式 显示 ) 


A 图 9.9 RGB 转 HSI 效 果 图 





2. 从 HSI 到 RGB 的 彩色 转换 及 其 实现 

在 [0， 内 给 出 HSI 值 ， 现 在 要 在 相同 的 值 域 找到 RGB 值 ， 可 利用 H 
值 公式 。 在 原始 色 分 制 中 有 3 个 相隔 120? 的 扇形 ， 如 图 9.10 所 示 。 从 H 乘 
以 360° 开 始 ， 这 时 色调 值 返 回 原来 的 [0，360] 的 范围 。 








蓝 深 红 


蓝 深 红 


和 图 9.10 HSI 横 型 中 的 色调 和 饱和 度 





RG 局 形 (0*<H<120°): 当 H 位 于 这 一 书 形 区 时 ，RGB 分 量 由 下 式 给 
号 


元 = 7 一 明 


Wa ScosH 
cos(60°—H) 


G=31-(R+8B) 





GB 局 区 (120*<H<240°): 如 果 给 定 的 H 值 在 这 一 悄 区 ， 首 先 从 HH 中 减 
去 120*， 即 


H=H-120° 


然后 RGB 分 量 为 


R=1(1—S) 


sh 
cos(60°—H) 
B=3I1-(R+G) 


BR 局 区 (240*<H<360°): 最 后 ， 如 果 H 在 这 一 局 区 ， 从 瑞 中 减 去 
240。。 


H=H-240° 
然后 RGB 分 量 为 


G=7U 一人) 


8- 咱 1+ ScosH 
coS(60 ”一 万 ) 


R=31-(G+8) 


e Matlab 实 现 

下 面 给 出 一 个 实现 HSI 转换 到 RGB 的 Matlab 函 数 hsi2rgb ， 读 者 可 
以 在 金 羽 图 书 论坛 (http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ”板块 与 
本 书 同 名 的 主题 帖子 附件 的 第 9 章 的 code 目 录 中 找到 它 。 

function rgb = hsi2rgb(hsi) 

% rgb = hsi2rgb(hsi) 把 一 幅 HSI 图 像 转 换 为 RGB 图 像 ， 

% 其 中 hsi(:, :, 1) 是 色 度 分 量 ， 它 的 范围 是 除 以 2*pi 后 的 [0, 1]; 

% hsi(:, :, 2) 是 饱和 度 分 量 ， 范 围 是 [0, 1]; 

% hsi(:, :, 3) 是 亮度 分 量 ， 范 围 是 [0, 1]。 

% 

% 输出 图 像 分 量 : 





% rgb(:, :, 1) 为 红 ; 

% rgb(:, :, 2) 为 绿 ; 

% rgb(:, :, 3) 为 赣 。 

% 抽取 图 像 分 量 

hsi = im2double(hsi); 

H= hsi(:, :, 1)* 2 * pi; 

S = hsi(:, :, 2); 

[= hsi(:, :, 3); 

% 执行 转换 方程 

R = zeros(size(hsi, 1), size(hsi, 2)); 

G = zeros(size(hsi, 1), size(hsi, 2)); 

B = zeros(size(hsi, 1), size(hsi, 2)); 

% RG 局 形 (0 <= H < 2*pi/3) 

idx = find( (0 <= H) & (H < 2*pi/3)); 
B(idx) = I(idx) .* (1 - S(idx)); 

R(idx) = I(idx) .* (1 + S(idx) .* cos(H(idx)) ./ 
cos(pi/3 - H(idx))); 

G(idx) = 3*I(idx) - (R(idx) + B(idx)); 

% BG 局 形 (2*pi/3 <= H < 4*pi/3) 

idx = find( (2*pi/3 <= H) & (H < 4*pi/3) ); 
R(idx) = I(idx) .* (1 - S(idx)); 

Gl(idx) = I(idx) .* (1 + S(idx) .* cos(H(idx) - 2*pi/3) ./... 
cos(pi - H(idx))); 

B(idx) = 3*I(idx) - (R(idx) + G(idx)); 

% BR 局 形 

idx = find( (4*pi/3 <= H) & (H <= 2*pi)); 
G(idx) = I(idx) .* (1 - S(idx)); 


B(idx) = I(idx) .* (1 + S(idx) .* cos(H(idx) - 4*pi/3) ./ 

cos(5*pi/3 - H(idx))); 

R(idx) = 3*I(idx) - (G(idx) + B(idx)); 

% 将 3 个 分 量 联合 成 为 一 个 RGB 图 像 

rgb = cat(3, R, G, B); 

rgb = max(min(rgb, 1), 0); 

下 面 是 一 个 调用 hsi2rgb0 函 数 的 程序 段 ， 实 现 了 HSI 到 RGB 的 彩色 
转换 。 

>>figure; 

Subplot(1,2,1); 

hsi=imread(hsi.jpg); %RGB 图 像 plane.bmp 转 换 至 his 空 间 后 的 图 像 

imshow(hsi);title(hsi); 

subplot(1,2,2); 

rgb=hsi2rgb(hsi); 

imshow(Tgb);title(Tgb); 

转换 前 后 的 效果 如 图 9.11 所 示 。 
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(a) HSI 原 图 (以 RGB 格式 显示 ) (b) 转换 后 RGB 图 





A 图 9.11 HSI 转 RGB 效果 图 


9.2.4 HSV 模 型 


HSV 模型 是 人 们 用 来 从 调 色 板 或 颜色 轮 中 挑选 颜色 《〈 如 颜料 、 
水 等 ) 所 采用 的 彩色 系统 之 一 。HSV (hue, saturation, value) 表示 色调 
〈 也 称 色 相 ) 、 饱 和 度 和 数值 。 该 系统 比 RGB 更 接近 于 人 们 的 经 验 和 对 
彩色 的 感知 。 在 绘画 术语 中 ， 色 调 、 饱 和 度 和 数值 用 色泽 、 明 上 暗 和 调 色 

HSV 模 型 空间 可 以 用 一 个 倒立 的 六 核 锥 来 描述 ， 如 图 9.12 所 示 。 顶 
面 是 一 个 正六 边 形 ， 沿 H 方 向 表示 色相 的 变化 ， 从 0? 一 360" 是 可 见 光 的 
全 部 色谱 。 六 边 形 的 6 个 角 分 别 代表 红 、 黄 、 绿 、 青 、 蓝 、 品 红 6 个 颜色 
的 位 置 ， 每 个 颜色 之 间 相 隔 60"。 由 中 心 向 六 边 形 边界 〈S$ 方 向 ) 表示 颜 
色 的 饱和 度 S$ 变 化 ，S$ 的 值 由 0 一 1 变化 ， 越 接近 六 边 形 外 框 的 颜色 饱和 度 
越 高 ， 处 于 六 边 形 外 框 的 颜色 是 饱和 度 最 高 的 颜色 ， 即 S=1; 处 于 六 边 
形 中心 的 颜色 饱和 度 为 0， 即 S=0。 六 棱锥 的 高 〈 也 即 中 心 轴 ) 用 V 表 
示 ， 它 从 下 至 上 表示 一 条 由 黑 到 白 的 灰 度 ，V 的 底 端 是 黑色 ，V=0; V 
的 顶端 是 白色 ， V=1。 














A 图 9.12 HSV 的 六 棱锥 模型 


1. 从 RGB 到 HSV 的 转换 及 其 实现 
假设 所 有 的 颜色 值 都 已 经 归 一 化 到 范围 [0,1]。 在 RGB3 个 分 量 中 ， 


设 定 最 大 的 为 MAX， 最 小 的 为 MIN。RGB 到 HSV 的 转换 公式 为 


We 60°,(R = MAX) 
MAX — MIN 
H = 2m 0(G = MAX) 
MAX —MIN 
es x60°,(B= MAX) 
MAX -MIN 
S Wk MA 二 ee MI N 
MAX 
V = MAX 





计算 结果 中 ，H 的 值 范 围 为 0" 一 360*，S 和 V 值 范围 为 0 一 1。 
如 果 MAX=MIN，H= 没 有 色彩 ， 是 纯 灰 色 。 

如 果 H<0°*， 则 H 值 得 再 加 上 360°。 

如 果 MAX=0，S=0 就 是 没有 色彩 。 

如 果 V=0 则 是 纯 黑色 。 

e Matlab 实 现 

在 Matlab 中 RGB 转 为 HSV 的 函数 为 rgb2hsv， 其 调用 方式 如 下 。 
hsv=rgb2hsv(rgb); 

输入 的 RGB 图 像 可 以 是 uint8、uint16 或 double 类 型 的 。 
输出 图 像 hsv 为 MxNx3 的 double 类 型 。 

转换 后 的 效果 如 图 9.13 所 示 。 





(a) RGB 原 图 (b) 转换 后 HSV 图 (以 RGB 的 格式 显示 ) 


A 图 9.13 RGB 转 HSV 效 果 图 


2. 从 HSV 到 RGB 的 转换 及 其 实现 

假设 HSV 颜 色 值 已 转换 为 这 个 范围 : 耳 的 值 为 0" 一 360"，S 和 V 值 为 
0 一 1。 则 HSV 到 RGB 的 转换 公式 为 

假如 S=0， 则 R、G、B 值 的 计算 公式 为 


R=G=B=V 


假如 Sz0， 则 R、G、B 值 的 计算 公式 为 


p=V(l-5S) 

= (=) 

t=V(1-(1—/)S) 

Te 

R=qaq,G=V,B= p,(i=1) 

R= 人 全 为 

R= p,G = gqg,B=V,(i=3) 

RS 

w= r=pD= (t= 
计算 结果 中 ，R、G 和 B 值 范围 为 0 一 1。 
e Matlab 实 现 
在 Matlab 中 HSV 转 RGB 的 函数 为 hsv2rgb， 其 调用 方式 为 
rgb = hsv2rgb(hsv); /输入 输出 图 像 均 为 double 类 型 
转换 后 的 效果 如 图 9.14 所 示 。 
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(a) HSV 图 (b) 转换 后 RGB 图 





A 图 9.14 HSV 转 RGB 效果 图 


与 HSI 转 RGB 效果 相 比 ，HSV 转 RGB 的 效果 明显 更 好 ， 并 且 可 以 快 
速 高 效 地 实现 。 所 以 ， 在 实际 中 RGB 和 HSV 的 可 逆转 换 往往 比 RGB 和 
HSI 的 可 逆转 换 使 用 得 更 多 。 


9.2.5 YUV 模 型 


eUV 是 被 欧洲 电视 系统 所 采用 的 一 种 闫 色 编 码 方 法 ， 是 PAL 和 
SECAM 模 拟 彩色 电视 制式 采用 的 颜色 空间 。 其 中 的 Y、U、YV 几 个 字母 
不 是 英文 单词 的 组 合 词 ，Y 代 表 有 亮度 ，U、YV 人 代表 色 送 ， 是 构成 彩色 的 两 


ek. 
个 分 量 。 


彩色 图 像 信 号 经 分 色 和 分 别 放 大 校正 得 到 RGB 图 像 ， 再 经 过 矩阵 变 
换 电 路 得 到 亮度 信号 Y 和 两 个 色差 信号 R 一 Y、B 一 Y， 最 后 发 送 端 将 亮 
度 和 色差 3 个 信号 分 别 进行 编码 ， 用 同一 信道 发 送出 去 。 这 就 是 我 们 常 
用 的 YUV 模 型 。 

采用 YUV 模 型 的 一 个 主要 优势 是 它 的 亮度 信号 Y 和 色 度 信号 U、V 
是 分 离 的 。 如 果 只 有 Y 信 号 分 量 而 没有 U、V 分 量 ， 那 么 这 样 表示 的 图 就 
是 黑白 灰 度 图 。 彩 色 电 视 采 用 YUV 空 间 正 是 为 了 用 亮度 信号 YY 解决 彩 
色 电 视 机 与 黑白 电视 机 的 兼容 问题 ， 使 黑白 电视 机 也 能 接收 彩色 信号 ， 

















如 图 9.15 所 示 。 






各 时 路 审 旺 族 





A 图 9.15 YUV 模 型 应 用 示意 图 


当 白 光 的 亮度 用 YY 来 表示 时 ， 它 和 红 、 绿 、 蓝 三 色光 的 关系 可 用 
如 下 式 的 方程 描述 。Y=0.299R+0.587G+0.114B， 这 就 是 常用 的 亮度 公 
式 。 色 差 U、V 是 由 B 一 Y、R 一 Y 按 不 同比 例 压缩 而 成 的 。 如 果 要 由 
YUV 空 间 转化 成 RGB 空间 ， 只 要 进行 相反 的 逆 运算 即 可 。 

1. 从 RGB 到 YUV 的 转换 及 其 实现 


7 =0.299R+0.5387G +0.114B 
U =0.567(B8—Y) 
V =0.713(R—Y) 


e Matlab 实 现 
我 们 编写 了 rgb2yuv 函数 ， 实 现 从 rgb 回 yurv 的 转换 。 读 者 可 以 在 


金 羽 图 书 论坛 (http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 "板块 与 本 书 
同名 的 主题 帖子 附件 的 第 9 章 的 code 目 录 中 找到 文件 rgb2yuv.m。 


绿 、 


function yuv = rgb2yuv(rgb) 

% yuv = rgb2yuv(rgb) 把 一 幅 RGB 图 像 转换 为 YUV 图 像 ， 

% 输入 图 像 是 一 个 彩色 像素 的 MxNx3 的 数组 ， 

% 其 中 每 一 个 彩色 像素 都 在 特定 空间 位 置 的 彩色 图 像 中 对 应 红 、 


蓝 3 个 分 量 。 


% 假如 所 有 的 RGB 分 量 是 均衡 的 ， 那 么 HSI 转 换 就 是 未 定义 的 。 
% 输入 网 像 可 能 是 double《〈 取 值 范 围 是 [0,1]) ，uint8 或 uint16。 
20 

% 输出 YUV 图 像 是 uint8。 

rgb = im2double(rgb); 


r= rgb(:, :, 1); 
g= rgb(:, :, 2); 
b= rgb(:, :, 3); 
% 执行 转换 函数 


y= 0.299*r + 0.587*g + 0.114*b; 
u= 0.567*(b - y); 
V=0.713*(r - y); 
% 防止 溢出 
if(y < 0) 
y=0; 
end; 
if(y > 1.0) 
y= 1.0; 


end; 
if(u < 0) 
u=0; 
end; 
if(u > 1.0) 
u= 1.0; 
end; 
if(v < 0) 
V=0; 
end; 
if(v > 1.0) 
Vv = 1.0; 
end; 
% 联合 yuv， 并 转 成 uint8 类 型 
y= y*255; 
U = Uu*255; 
V = V*255; 
yuv = cat(3, y, u, Vv); 
yuv = uint8(yuv); 


调用 rgb2yuv0) 函 数 转换 后 的 效果 如 图 9.16 所 示 。 


A 


(a) RGB 原 图 (b) 转换 后 YUV 图 (以 RGB 的 格式 显示 ) 





A 图 9.16 RGB 转 YUV 效 果 图 


2. 从 YUV 到 RGB 的 转换 及 其 实现 


R=Y+1.402V 
G=Y—0.344U —0.714V 
B=Y+1.772U 


e Matlab 实 现 

我 们 编写 了 yuv2rgb 函数 ， 实 现 从 yuv 回 rgb 的 转换 。 读 者 可 以 在 金 
羽 图 书 论坛 (http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 "板块 与 本 书 同 
名 的 主题 帖子 附件 的 第 9 章 的 code 目 录 中 找到 文件 rgb2yuv.m。 

function rgb = yuv2rgb(yuv) 

% yuv = rgb2yuv(rgb) 把 一 幅 RGB 图 像 转换 为 YUV 图 像 ， 

% 输入 图 像 是 一 个 彩色 像素 的 MxNx3 的 数组 ， 

% 其 中 每 一 个 彩色 像素 都 在 特定 空间 位 置 的 彩色 图 像 中 对 应 红 、 
绿 、 蓝 3 个 分 量 。 

9% 假如 所 有 的 RGB 分 量 是 均衡 的 ， 那 么 HSI 转 换 就 是 未 定义 的 。 

% 输入 图 像 可 能 是 double〈 取 值 范围 是 [0, 1]〉，uint8 或 uint16。 

% 


% 输出 YUV 图 像 是 uint8。 
yuv = im2double(yuv); 
y= yuvG, :, 1); 
u= yuv(:, :, 2); 
V = yuv(:, :, 3); 
% 执行 转换 函数 
r=y+1.402*yv; 
g=y-0.344*u -0.714*yv; 
b=y+1.772*u; 
% 防止 溢出 
if(r < 0) 
r=0; 
end; 
if(r > 1.0) 
r= 1.0; 
end; 
if(g < 0) 
gO0; 
end; 
if(g > 1.0) 
g = 工 .0; 
end; 
if(b < 0) 
b=0; 
end; 
if(b > 1.0) 
b = 1.0; 


end; 

% 联合 rgb 

T = Ir*255; 

8 = 中 255; 

b = b*255; 

rgb = cat(3, r, g, b); 
rgb = uint8(rgb); 





转换 后 的 效果 如 图 9.17 所 示 。 
(a) YUV 图 (以 RGB 格式 显示 ) (b) 转换 后 RGB 图 


A 图 9.17 YUV 转 RGB 效果 图 


9.2.6 YIQ 模 型 


YIQ 模 型 是 北美 NTSC 彩 色 制 式 ， 主 要 用 于 美国 的 电视 系统 。 这 种 
形式 和 欧洲 的 YUV 模 型 有 相同 的 优势 : 灰 度 信息 和 彩色 信息 是 分 离 的 。 
YIQ 模 型 中 ，Y 代 表 亮 度 ，I 代 表 色 调 ，Q 则 代表 饱和 度 。 其 中 ， 亮 度 表 
示 灰 度 ， 而 色调 和 饱和 度 则 存储 彩色 信息 。 

1. 从 RGB 到 YIQ 的 转换 及 其 实现 

转换 公式 为 


Y 0299 本 587 Ql 儿 起 
7 |=|0.596 -0.274 -0.322||G 
0 0.211 -0.523 0.312 118 


上 式 中 ， 第 一 行 和 为 1， 下 两 行 和 分 别 为 0。 

e Matlab 实 现 

Matlab 函 数 rgb2ntsc 可 实现 从 rgb 到 ntsc 的 转换 ， 其 调用 形式 为 
eid = rgb2ntsc(rgb); 

输入 的 RGB 图 像 可 以 是 uint8、uint16 或 double 类 型 的 。 

输出 图 像 为 MxNx3 的 double 类 型 。 

转换 后 的 效果 如 图 9.18 所 示 。 


~ 国 


(a) RGB 原 图 (b) 转换 后 YIQ 图 (以 RGB 格式 显示 ) 
A 图 9.18 RGB 转 YIQ 效 果 图 


2.， 从 YIQ 到 RGB 的 转换 及 其 实现 
转换 公式 为 


R 1.000 0.956 0.621 Y 
G|=|1.000 -0.272 -0.647|| 7 
B BOOG :L100 L703 Il 


e Matlab 实现 

Matlab 函 数 ntsc2rgb 可 实现 从 ntsc 到 rgb 的 转换 ， 其 调用 形式 为 
rgb = ntsc2rgb(yid); 

其 中 ， 输 入 和 输出 图 像 均 为 double 类 型 。 

转换 后 的 效果 如 图 9.19 所 示 。 


A 


(a) YIQ 图 (b) 转换 后 RGB 图 





A 图 9.19 YIQ 转 RGB 效果 图 
9.2.7 Lab 模 型 简介 


Lab 模 型 是 由 CIE (国际 照明 委员 会 ) 制定 的 一 种 彩色 模式 。 这 种 模 
型 与 设备 无 关 ， 它 弥补 了 RGB 模型 和 CMYK 模 型 必须 依赖 于 设备 颜色 特 
性 的 不 足 。 此 外 ， 自 然 界 中 任何 色彩 都 可 在 Lab 空 间 表达 出 来 ， 这 就 意 
味 着 RGB 以 及 CMYK 所 能 描述 的 颜色 信息 在 Lab 中 都 能 得 以 影射 。 

Lab 闫 色 空 间 如 图 9.20 所 示 。 其 中 LL 表示 亮度 ; a 的 正 数 代 表 红 色 ， 
负 端 代表 绿色 ; b 的 正 数 代表 黄色 ， 负 端 代 表 蓝 色 。 

由 于 Lab 模 型 与 设备 无 关 的 特点 ， 使 其 在 彩色 图 像 检索 中 应 用 较为 
广泛 。 男 外 ， 当 希望 在 图 像 的 处 理 中 保留 尽量 宽阔 的 色 域 和 丰富 的 色彩 
时 ， 可 以 选择 在 Lab 模 型 下 进行 工作 ， 处 理 后 再 根据 输出 的 需要 转换 成 
RGB 模 型 (显示 用 ) 或 CMYK 模 型 〈 打 印 及 印刷 用 ) 。 这 样 做 的 最 大 好 











处 是 它 能 够 在 最 终 的 设计 成 果 中 ， 获 得 比 任何 色彩 模型 都 更 加 优质 的 色 





D 





A 一 亮度 为 100 ( 白 ) ; B 一 深 绿 到 亮 粉 ; 
C 一 亮 蓝 到 焦 黄 ; D 一 亮度 为 0( 黑 ) 


A 图 9.20 Lab 模 型 示意 图 


9.3 全 彩色 上 理 基 


本 节 要 介绍 全 彩色 图 像 处 理 技术 ， 面 对 各 种 各 样 的 图 像 处 理 任 务 怎 
样 处 理 全 彩色 图 像 。 通 常 ， 全 彩色 图 像 处 理 技 术 总 的 可 以 分 为 两 大 类 。 

(1) 对 3 个 平面 分 量 单独 处 理 ， 然 后 将 分 别处 理 过 的 3 个 分 量 合成 
彩色 图 像 。 对 每 个 分 量 的 处 理 拉 术 可 以 应 用 到 对 灰 度 图 像 处 理 的 技术 
上 。 但 是 这 种 通道 式 的 独立 处 理 技术 忽略 了 通道 间 的 相互 影响 。 

(2) 直接 对 彩色 像素 进行 处 理 。 因 为 全 彩色 图 像 至 少 有 3 个 分 量 ， 
彩色 像素 实际 上 是 一 个 同 量 。 和 直接 处 理 就 是 同时 对 所 有 分 量 进行 无 差别 
的 处 理 。 这 时 彩色 图 像 的 3 个 分 量 用 向 量 形式 表示 ， 即 对 彩色 图 像 上 任 
一 点 的 像素 c(x, y)， 有 











co »y) = [R(x, y);G(x, y);B(x, »)] 


那么 对 像素 点 (x, y) 处 理 的 操作 实际 上 是 同时 对 R、G、B 这 3 个 分 量 
操作 。 不 过 通常 大 多 数 图 像 处 理 拉 术 部 是 指 对 每 个 分 量 的 单独 处 理 。 接 
下 来 将 讲述 全 彩色 图 像 处 理 的 两 个 第 用 技术 : 彩色 补偿 和 彩色 平衡 。 


.1 彩色 补偿 及 其 Matlab 实 现 





有 些 图 像 处 理 任 务 的 目标 是 根据 颜色 分 离 出 不 同 的 类 型 的 物体 。 但 
由 于 常用 的 彩色 成 像 设 备 具有 较 宽 旦 相互 履 盖 的 光谱 敏感 区 ， 加 之 待 拍 
摄 图 像 的 染色 是 变化 的 ， 所 以 很 难 在 3 个 分 量 图 中 将 物体 分 离 出 来 ， 这 
种 现象 称 为 颜色 扩散 。 彩 色 补 偿 的 作用 就 是 通过 不 同 的 颜色 通道 提取 不 
同 的 目标 物 。 

1. 理论 基础 

彩色 补偿 算法 描述 如 下 。 

(1) 在 画面 上 找到 主观 视觉 看 是 纯 红 、 纯 绿 、 纯 蓝 的 3 个 点 〈 若 可 
根据 人 硬件 知道 频段 的 履 盖 则 无 须 这 样 做 。) 





一 人 CD 妆 CR O00) 


它们 的 理想 值 为 . , 
P; = (人 02,B2) BW 安生 
P; = (R;3,G3,B;) Bs (00; BB ) 
(2) 计算 六 、g”、B“ 的 值 。 考 虑 到 彩色 补偿 之 后 图 像 的 亮度 不 
变 ， 则 对 r 、g” 、B ”的 计算 为 


R = 0.30* R + 0.59* G + 0.11* B， 
G = 0.30* R, + 0.59* G, + 0.11* B， 
B = 0.30* R; + 0.59* Gi + 0.11* B; 


(3) 构造 变换 矩阵 。 将 所 取 到 的 3 个 点 的 RGB 值 分 别 按 如 下 所 示 构 


造 出 的 彩色 补偿 前 和 补偿 后 的 2 个 矩阵 Al 和 A，。 


R KR R; 
A=|IG: CO GG 
B! B, B; 
BR 时 “站 
A=I0 G* 0 
0 0 站” 
Rs(x,y) 
SC Wl (G(x) 
(4) 进行 彩色 补偿 。 设 ald, 


RF (xX, y) 
(ns ORG 


BF(X,》)] 分 别 为 新 、 旧 图 像 的 像素 值 。 

则 SGCxy)=C-T*FGCy)。 其 中 ，C=Ai* Al。 

2. Matlab 实 现 

根据 上 述 算法 编写 的 彩色 补偿 Matlab 实现 如 下 。 读 者 可 以 在 金 羽 
图 书 论坛 (http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 * 板 块 与 本 书 同名 
的 主题 帖子 附件 的 第 9 章 的 code 目 录 中 找到 文件 compensate.m。 

% compensate.m 

% 彩色 补偿 

im=double(imread('plane.bmp')); 

subplot(1,2,1); 

imshow(uint8(im)); 

title( 原 始 图 "); 


[m,n,p]=size(im); 


[h1,k1]=min(255-im(:,:,1)+im(:,:,2)+im(:,:,3)); 
[j1,minx]=min(h1); 
i1=k1(j1);% 提 取 图 像 中 最 接近 红色 的 点 ， 其 在 im 中 的 化 标 为 i1,j1 
rl=im(i1,j1,1); 
g1=im(i1,j1,2); 
b1=im(i1,j1,3); 
R=0.30*r1+0.59*g1+0.11*b1; 
[h2,k2]=min(255-im(:,:,2)+im(:,:,1)+im(:,:,3)); 
[j2,minx]=min(h2); 
i2=k2(02);% 提 取 图 像 中 最 接近 绿色 的 点 ， 其 在 im 中 的 坐标 为 记 ,j2 
r2=im(i2,j2,1); 
g2=im(i2,j2,2); 
b2=im(i2,j2,3); 
G=0.30*r2+0.59*g2+0.11*b2; 
[h3,k3]=min(255-im(:,:,3)+im(:,:,1)+im(:,:,2)); 
[j3,minx]=min(h3); 
i3=k3(j3);% 提 取 图 像 中 最 接近 蓝 色 的 点 ， 其 在 im 中 的 坐标 为 13,j3 
r3=im(i3,j3,1); 
£3=im(i3,j3,2); 
b3=im(i3,j3,3); 
B=0.30*r3+0.59*g3+0.11*b3; 
Al=[rl r2 r3 
£1 g2 g3 
b1 b2 b3]; 
A2=[R00 
0G0 
00Bj; 


C=Al*inv(A2); 
for i=1:m 
for j=1:n 
imR=im(i,j,1); 
imG=im(,j,2); 
imB=im(i,j,3); 
temp=inv(C)*[imR;imG,;imB]; 
S(i,j,1)=temp(1); 
5(i,j,2)=temp(2); 
5(i,j,3)=temp(3); 
end 
end 
S=uint8(S); 
subplot(1,2,2); 
imshow(S); 
title( 补偿 后 ); 
采用 上 面 的 程序 对 RGB 图 像 plane.bmp 进 行 彩色 补偿 处 理 ， 结 果 如 
图 9.21 所 示 。 





(a) 原始 图 (b) 补偿 后 


A 图 9.21 彩色 补偿 效果 图 





一 幅 彩 色 图 像 数 字 化 后 ， 在 显示 时 颜色 经 常 看 起 来 有 些 不 正常 。 这 
是 色 通道 的 不 同 敏感 度 、 增 光 因子 和 偏 移 量 等 原因 导致 的 ， 称 其 为 三 基 
色 不 平衡 。 将 之 校正 的 过 程 就 是 彩色 平衡 。 
1. 理论 基础 
彩色 平衡 校正 算法 如 下 。 
(1) 从 画面 中 选 出 两 点 颜色 为 灰色 ， 设 为 
Fe— "(Rin ,Bi) 
2 = (RB,,G2,B,) 


(2) 设 以 G 分 量 为 基准 ， 匹 配 R 和 B 分 量 ， 则 


FI = (RI1,G1,B1) A (RI1,G1,B1) 
F; = (R2C2,D2) 。 已 = (R,,G,,B;) 
(3) 由 RI1 =k1*Ri+k2 和 R,” =k1l*R2+k2 求 出 kL1 和 k2:; BI =]l1*bj+12 
和 B,，=11*b>+12 求 出 11 和 12。 
(4) 用 
RC y) = kl* R(x, y)+k2 
B(x,y) =11* B(x, y)+12 
G(x,y) = G(x,y) 


处 理 后 得 到 的 图 像 就 是 彩色 平衡 后 的 图 像 。 
2. Matlab 实 现 


根据 上 述 算法 编写 的 彩色 平衡 Matlab 实现 如 下 。 读 者 可 以 在 金 羽 
图 书 论坛 (http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 "板块 与 本 书 同名 
的 主题 帖子 附件 的 第 9 章 的 code 目 录 中 找到 文件 colorBalance.m。 

% colorBalance.m 

% 彩色 平衡 

im=double(imread('plane.bmp')); 

[m,n,p]=size(im); 

Fl1=im!(1,1,:); 

F2=im(1,2,:); 

F1_(1,1,1)=F1(:,:,2); 

F1_(1,1,2)=F1(:,:,2); 

F1_(1,1,3)=F1(:,:,2); 

F2_(1,1,1)=F2(:,:,2); 

F2_(1,1,2)=F2(:,:,2); 

F2_(1,1,3)=F2(:,:,2); 

K1=(F1 (1,1,1)-F2_(1,1,1)M(F1(1,1,1)-F2(1,1,1)); 

K2=F1 (1,1,1)-K1*F1(1,1,1); 

L1=(F1_(1,1,3)-F2_(1,1,3))M/(F1(1,1,3)-F2(1,1,3)); 

L2=F1_(1,1,3)-L1*F1(1,1,3); 

for i=1:m 

for j=1:n 
new(i,j,1)=K1*im(i,j,1)+K2; 
new(i,j,2)=im(i,j,2); 
new(i,j,3)=L1*im(i,j,3)+L2; 
end 
end 


im=uint8(im); 


new=uint8(new); 

subplot(1,2,1); 

imshow(imy); 

title(' 原 始 图 ); 

subplot(1,2,2); 

imshow(new); 

title(' 平 衡 后 '); 

采用 上 面 的 程序 对 RGB 图 像 plane.bmp 进 行 彩色 平衡 ， 结 果 如 图 9.22 
所 示 。 





(a) 原始 图 (b) 平衡 后 


A 图 9.22 彩色 平衡 效果 图 


形态 学 ， 即 数学 形态 学 (Mathematical Morphology) ， 是 图 像 处 理 
中 应 用 最 为 广泛 的 技术 之 一 。 其 主要 应 用 是 从 图 像 中 提取 对 于 表达 和 擂 
绘 区 域 形 状 有 意义 的 图 像 分 量 ， 使 后 续 的 识别 工作 能 够 抓 住 目标 对 象 最 
为 本 质 (最 具 区 分 能 力 一 一 most discriminative) 的 形状 特征 ， 如 边界 和 
连通 区 域 等 ， 同 时 像 细 化 、 像 素 化 和 修剪 毛刺 等 技术 也 常常 应 用 于 图 像 
的 预 处 理 和 后 处 理 中 ， 成 为 图 像 增 强 技术 的 有 力 补充 。 

本 章 的 知识 和 技术 热点 

e 一 值 图 像 的 基本 形态 学 运算 ， 包括 腐蚀 、 脱 胀 、 开 和 闭 。 

e 二 值 形态 学 的 经 典 应 用 ， 包 括 击 中 击 不 中 变换 、 边 界 提取 和 中 
踪 、 区 域 填充 、 提 取 连 通 分 量 、 细 化 和 像素 化 ， 以 及 凸 壳 。 

e 灰 度 图 像 的 形态 学 运算 ， 包 括 灰 度 腐蚀 、 灰 度 膨 胀 、 灰 上 度 开 和 灰 
度 闭 。 

本 章 的 典型 案例 分 析 

e 在 人 脸 局 部 图 像 中 定位 嘴 的 中 心 。 

e 显微镜 下 网 像 的 细 画 计数 。 

e 利用 顶 帽 变换 〈top-hat) 技术 解决 光照 不 均 问 题 。 




















10.1 预备 知识 


在 数字 图 像 处 理 中 ， 形 态 学 是 借助 集合 论 的 语言 来 描述 的 ， 本 章 后 
面 的 各 市 内 容 均 以 本 市 要 介绍 的 集合 论 为 基础 。 

在 数字 图 像 处 理 的 形态 学 运算 中 ， 营 党 把 一 幅 图 像 或 者 图 像 中 一 个 
我 们 感 兴趣 的 区 域 称 作 集合 ， 用 大 写字 母 A、B、C 等 表示 ; 而 元 素 通常 
古 指 一 个 蛙 个 的 像素 ， 用 该 像 系 在 图 像 中 的 整 型 位 置 坐标 z=(z1，z2) 来 























表示 ， 这 里 zEZ2 ， 其 中 Z2 为 二 元 整数 序 偶 对 的 集合 。 

下 面 介绍 一 些 集合 论 中 的 重要 关系 。 

1. 集合 与 元 素 

属于 : 对 于 某 一 集合 〈 图 像 区 域 ) A， 若 点 a 在 A 之 内 ， 则 称 a 为 A 的 
元 素 ，a 属 于 A， 记 作 aEA; 有 反之， 耕 点 b 不 在 A 之 内 ， 称 b 不 属于 A， 记 
作 b#A， 如 图 10.1 (Ca) 所 示 。 

2. 集合 与 集合 

并 集 : C= {z|zEA orzEB}， 记 作 C = AUB， 即 A 与 B 的 并 集 C 包 
含 集合 A 与 集合 B 的 所 有 元 素 ， 如 图 10.1 (b) 上 所 示 。 

交集 : C= {z|zEA andxEB}， 记 作 C=AnB， 即 A 与 B 的 交集 C 包 
含 同 时 属于 集合 A 与 集合 B 的 所 有 元 素 ， 如 图 10.1 (c) 所 示 。 

补 集 : AS ={z |z4A}， 即 A 的 补 集 是 不 包含 于 A 的 所 有 元 素 组 成 的 
集合 ， 如 图 10.1 Cd) 所 示 。 

差 集 : A-B={z zE A,z#B}=AnB ， 即 A 与 B 的 差 集 由 所 有 属于 A 但 
不 属于 B 的 元 素 构 成 ， 如 图 10.1 (Ce) 所 示 。 

包含 : 集合 A 的 每 1 个 元 素 都 是 另 一 个 集合 B 的 1 个 元 素 ， 则 称 A 为 B 
的 子 集 ， 记 作 ASB， 如 图 10.1 (f) 所 示 。 

3. 反射 和 平移 

反射 又 名 对 称 ， 定 义 为 8 ={zlz=-b,be B}， 记 作 8 ， 如 图 
10.1 (g) 所 示 。 

平移 : 将 集合 B 平 移 到 点 z=(z1，z2)， 定 义 为 (B),={x|x=b+z,bEB)}， 
记 作 (B),， 如 图 10.1 (Ch) 所 示 。 
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(g) 反射 B (h) 平移 (B) - 
和 图 10.1 集合 的 关系 和 运算 


4. 结构 元 素 (structure element) 

设 有 两 幅 图 像 A、S。 知 A 是 被 处 理 的 对 象 ， 而 S 是 用 来 处 理 A 的 ， 
则 称 S 为 结构 元 素 。 结 构 元 素 通 常 都 是 一 些 比较 小 的 图 像 ，A 与 5 的 关系 
类 似 于 滤波 中 图 像 和 模板 的 关系 。 








本 节 介 绍 几 种 二 值 图 像 的 基本 形态 学 运算 ， 包 括 腐蚀 、 膨 胀 ， 以 及 
Ts 团 运 时。 

由 于 所 有 形态 学 运算 都 是 针对 图 像 中 的 前 景物 体 进行 的 ， 因 而 首先 
对 图 像 前 景 和 背景 的 认定 给 出 必要 的 说 明 。 

注意 

对 于 大 多 数 图 像 ， 一 般 相 对 于 背景 而 言 物体 的 颜色 《〈 灰 度 ) 更 深 ， 
二 值 化 之 后 物体 会 成 为 黑色 ; 而 背景 则 成 为 白色 。 因 此 我 们 通常 更 习惯 
于 将 物体 用 黑色 〔 灰 度 值 0〉 表示 ， 而 背景 用 白色 《〈 灰 度 值 255) 表示 ， 
本 章 所 有 的 算法 示意 图 都 遵从 这 种 约定 ;但 Matlab 在 二 值 图 像 形 态 学 处 
理 中 ， 默 认 情 况 下 白色 的 (二 值 图 像 中 灰 度 值 为 1 的 像素 ， 或 灰 度 图 像 中 
灰 度 值 为 255 的 像素 ) 是 前 景 〈 物 体 ) ， 黑 色 的 为 背景 ， 因 而 本 章 涉及 
Matlab 的 所 有 程序 实例 又 都 遵从 Matlab 本 身 的 这 种 前 景 认定 习惯 。 所 以 
图 10.2 中 所 示 的 两 幅 图 像 对 于 这 两 种 不 同 的 认定 习惯 来 说 从 形态 学 处 理 
的 意义 上 是 等 同 的 。 


























(a) (b) 


A 图 10.2 两 种 各 见 的 对 于 图 像 前 景 与 背景 的 认定 





实际 上 ， 无 论 以 什么 灰 度 值 为 前 景 和 背景 都 只 是 一 种 处 理 上 的 习惯 








而 已 ， 与 形态 学 算法 本 里 无 关 。 例 如 对 于 上 面 的 两 幅 图 片 ， 只 需要 在 形 
态 学 处 理 之 前 先 对 图 像 反 色 ， 束 可 以 在 两 种 认定 习惯 之 间 上 自由 切换 。 


10.2.1 腐蚀 及 其 实现 





腐蚀 和 脱 胀 是 两 种 最 基本 也 是 最 重要 的 形态 学 运算 ， 因 为 它们 是 后 
续 要 介绍 的 很 多 高 级 形态 学 处 理 的 基础 ， 很 多 其 他 的 形态 学 算法 都 是 由 
这 两 种 基本 运算 复合 而 成 的 。 下 面 先 介绍 腐蚀 ， 在 10.2.2 中 将 介绍 脱 
胀 。 

1. 理论 基础 

对 Z2 上 元 素 的 集合 A 和 S， 使 用 S 对 A 进行 腐蚀 ， 记 作 A S S， 形 式 
化 地 定义 为 





4GS={z|(S): E A4} (10-1 ) 


让 原本 位 于 图 像 原点 的 结构 元 素 $S 在 整个 Z“ 平 面 上 移动 ， 如 果 当 S$S 的 
原点 平移 至 z 点 时 S 能 够 完全 包含 于 A 中 ， 则 所 有 这 样 的 z 点 构成 的 集合 即 
为 S$ 对 A 的 腐蚀 图 像 ， 如 图 10.3 所 示 。 








d dl4 
B 
SB 
A ‘di8' 3d/4 'di8' 
(a) 集合 A (b) 正方 形 结构 元 素 B( 黑 点 是 原点 ) (c) B 对 A 腐蚀 后 的 结果 
di4 
d 
B 
'd/8 3d14 'd/8' 
(d) 拉 长 的 矩形 结构 元 素 B (e) 用 (d) 中 结构 元 素 对 A 腐蚀 的 结果 


A 图 10.3 腐蚀 示意 图 (图 中 标 出 了 所 有 图 形 的 长 和 宽 





采用 原点 位 于 中 心 的 3x3 对 称 结构 元 素 的 腐蚀 运算 效果 如 图 10.4 所 
示 。 该 效果 是 由 我 们 在 金 羽 图 书 论坛 (http://bbs.book95.com〉 的“ 金 羽 
图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖子 附件 中 提供 的 MorphSimulator 工 
有 具 实现 的 ， 读 者 可 以 在 第 10 章 的 Tools 目 录 中 找到 此 工具 。 本 章 所 有 的 
形态 学 运算 效果 均 可 由 MorphSimulator 模 拟 ， 该 工具 使 用 非常 简单 〈 详 
见 同 目录 下 的 help.txt 文 件 ) ， 它 能 够 将 形态 学 运算 的 效果 放大 化 ， 用 每 
1 个 方 格 代表 1 个 像素 ， 从 而 可 以 非常 直观 地 感受 运算 效果 ， 帮 助 初 学 者 
更 快 地 理解 各 种 形态 学 算法 。 








(a) 原始 图 像 A (b) 结构 元 素 S 


A 图 10.4 腐蚀 运算 效果 模拟 
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下 面 再 来 看 一 个 非 对 称 结 构 元 素 腐 蚀 的 示例 。 如 图 10.5 所 示 ， 结 构 
元 素 的 原点 在 图 中 以 “0O” 标 出 。 











(a) 原始 图 像 A (b) 非 对 称 结构 元 素 $ (c) AGS 
和 图 10.5 非 对 称 结构 元 素 的 腐蚀 


图 (b) 中 像素 格 内 的 “0” 表示 原点 ，“X” 表 示 该 位 置 的 值 我 们 并 不 
关心 ， 稍 后 会 对 “X” 的 意义 加 以 解释 

形态 学 运算 的 运算 结果 不 仅 与 结构 元 又 的 形状 有 关 ， 还 与 结构 元 素 
的 原点 位 置 密切 相关 ， 请 读者 思考 : 同样 对 于 图 10.4 中 的 图 像 A， 结 构 
元 素 形 状 不 变 ， 只 是 将 原点 放 在 第 3 行 中 间 的 那个 元 素 上 ， 会 得 到 什么 
样 的 结果 呢 ? 

2. Matlab 实 现 

Matlab 中 和 腐蚀 相关 的 两 个 常用 函数 为 imerode 和 strel。 


(1) imerode 函 数 用 于 完成 图 像 腐蚀 ， 其 利用 调用 形式 如 下 。 

I2 = imerode(L SE); 

参数 说 明 

e I 为 原始 图 像 ， 可 以 是 二 值 或 灰 度 图 像 〈 对 应 于 灰 度 腐蚀 ) 。 

e SE 是 由 strel 函 数 返回 的 自 定 义 或 预 设 的 结构 元 素 对 象 。 

返回 值 

e I2 为 腐蚀 后 的 输出 图 像 。 

(2) strel 函 数 可 以 为 各 种 常见 形态 学 运算 生成 结构 元 素 SE， 当 生 
成 供 二 值 形 态 学 使 用 的 结构 元 素 时 ， 其 调用 形式 为 

SE = strel(shape,parameters); 

参数 说 明 

e shape 指 定 了 结构 元 率 的 形状 ， 其 常用 合法 取 直 如 表 10.1 所 示 。 











表 10.1 常用 平坦 结构 元 素 的 shape 参 数 

















合法 取 值 功能 描述 
'arbitrary' 或 为 空 任意 自 定 义 的 结构 元 素 
'disk' 圆 形 结构 元 素 
'square' 正方 形 结 构 元 素 
'rectangle' 生 形 结构 元 素 
"ine' 线形 的 结构 元 素 
'pair’ 包含 两 个 点 的 结构 元 素 
'diamond' 节 形 的 结构 元 素 
'octagon' 8 角形 的 结构 元 素 


e parameters 是 和 输入 shape 有 关 的 参数 。 

返回 值 

e SE 为 得 到 的 结构 元 素 对 象 。 

下 面 结合 一 些 代 表 性 的 情况 具体 说 明 。 

(1) SE = strel(arbitrary,'NHOOD) 返 回 一 个 由 NHOOD 指 定 的 结构 


元 素 。 其 中 ，NHOOD 为 一 个 只 包含 “0” 和 ”1 的 矩阵 ， 规 定 了 结构 元 素 
的 形状 。 结 构 元 素 的 中 心 位 于 NHOOD 和 矩阵 的 中 心 位 置 ， 即 
floor((size(NHOOD)+1)/2)。 也 可 省 略 第 1 个 参数 ， 写 为 SE = 
strel(NHOOD) 的 形式 。 

(2) SE = strel('disk',R) 返 回 一 个 半径 为 R 的 圆 形 结构 元 素 。 

(3) SE = strel('pair',OFFSET) 返 回 一 个 只 包含 2 个 “1” 的 结构 元 素 。 
其 中 1 个 “1” 位 于 原点 ， 男 1 个 “1” 相 对 于 原点 的 位 置 由 OFFSET 向 量 指 
定 。OFFSET 是 一 个 长 度 为 2 的 同 量 ，OFFSET(1) 是 x 方向 的 偏 移 量 ， 
OFFSET(2) 是 y 方 同 的 偏 移 量 。 

(4) SE = strel(rectangle,MN) 返 回 一 个 高 、 宽 均 由 问 量 MN 指 定 的 
和 窍 形 结构 元 素 。MN 是 一 个 长 度 为 2 的 向 量 ，MN() 是 结构 元 素 的 高 度 ， 
MN(2) 是 结构 元 素 的 宽度 。 

提示 

由 于 形态 学 运算 中 的 结构 元 素 通 常 都 具有 一 定 的 尺寸 ， 当 结构 元 素 
位 于 图 像 边缘 时 ， 其 中 的 某 些 元 素 很 可 能 会 位 于 图 像 之 外 ， 这 时 需要 对 
于 在 边缘 附近 的 操作 单独 处 理 ， 以 避免 引用 到 本 不 属于 图 像 的 无 意义 的 
值 。 这 类 似 于 滤波 操作 中 的 边界 处 理 问题 (5.2.2 小 节 ) 。Matlab 可 以 自 
动 处 理 边 界 问题 。 

3. 腐蚀 的 作用 

顾名思义 ， 腐 刨 能 够 消融 物体 的 边界 ， 而 具体 的 腐蚀 结果 与 图 像 本 
身 和 结构 元 素 的 形状 有 关 : 如 果 物 体 整 体 上 大 于 结构 元 素 ， 腐 蚀 的 结构 
是 使 物体 变 “ 瘦 ”一 圈 ， 这 一 圈 到 底 有 多 大 是 由 结构 元 素 决 定 的 ;， 如果 物 
体 本 身 小 于 结构 元 素 ， 则 在 腐蚀 后 的 图 像 中 物体 将 完全 消失 ;如 物体 仪 
有 部 分 区 域 小 于 结构 元 素 〈 如 细小 的 连通 ) ， 则 腐蚀 后 物体 会 在 细 连 通 
处 断裂 ， 分 离 为 两 部 分 。 下 面 例 10.1 说 明了 几 种 不 同情 况 下 的 腐蚀 效 
果 。 

[ 例 10.1] 不 同 结构 元 素 的 腐 刨 效果。 























在 图 10.6 (a〉 所 示 的 原始 图 像 中 ， 两 个 主要 的 区 域 ( 圆 形 和 算 
形 ) ， 中 间 用 一 个 宽度 为 5 的 条 形 连 通融 ， 图 像 上 中 是 一 个 横 同 、 纵 癌 
长 度 均 为 3 个 像素 的 十 字 ， 位 于 图 像 底 部 的 3 个 正方 形 的 边 长 分 别 为 3、5 
和 6。 
采用 不 同 的 结构 元 素 对 图 10.6 (a) 进行 腐蚀 的 Matlab 程 序 如 例 10.1 
所 示 。 
>>I = imread(“../erode_dilate.bmp’”); % 读 入 8 位 灰 度 图 像 
9% 二 值 形态 学 处 理 中 将 灰 度 图 像 中 所 有 非 0 值 都 看 作 是 1， 即 前 景物 
体 
>> figure, imnshow(D; % 得 到 图 10.6 (a) 
>> se = strel('square', 3) %3*3 的 正方 形 结构 元 素 
se = 
Flat STREL object containing 9 neighbors. 
Neighborhood: 
1 1 1 
1 1 1 
1 1 1 
>> Ib= imerode(I, se); % 腐 刨 


>> figure, imshow(Ib); % 得 到 图 10.6 (b) 


>> 
>> se = strel([0 1 0; 1 1 1; 0 1 0]) %3*3 的 十 字 结 构 元 素 
se = 


Flat STREL object containing 5 neighbors. 
Neighborhood: 

0 1 0 

1 1 1 

0 1 0 


>> Ic= imerode(L se); % 腐 蚀 

>> figure, imshow(Ic); % 得 到 图 10.6 (c) 

Ss 

>> se = strel('square', 5) ;%5*5 的 正方 形 结构 元 素 
>> Id= imerode(I, se); % 腐 刨 

>> figure, imshow(1d); % 得 到 图 10.6 (d) 

2 

>> se = strel('square', 6); %6*6 的 正方 形 结构 元 素 
>> Ie= imerode(L se); % 腐 蚀 

>> figure, imshow(Ie); % 得 到 图 10.6 (e) 

Ss 

>> se = strel('square', 7) ;%7*7 的 正方 形 结构 元 素 
>> If= imerode(L se); % 腐 蚀 

>> figure, imshow(If); % 得 到 图 10.6 (f) 

上 述 程序 的 运行 效果 如 网 10.6 (b) 一 〈f 所 示 。 





(a) 原 图 像 erode dilate.bmp (b) 经 3x3 正方 形 结构 元 素 腐 蚀 





(c) 经 3x3 十 字形 结构 元 素 腐 刨 (d) 经 5x5 正方 形 结构 元 素 腐 刨 





(f ) 经 7x7 正方 形 结构 元 素 腐 蚀 


(e) 经 6x6 的 下 方形 结构 元 素 腐 刨 


A 图 10.6 腐蚀 对 不 同 物 体 的 影响 (为 使 图 中 前 景物 体 更 加 明显 ， 对 原 图 
放大 了 3 倍 显示 ) 





如 图 10.6 (b) 所 示 ， 原 图 像 经 过 3x3 的 正方 形 结构 元 素 腐 蚀 后 ， 由 
于 上 部 的 十 字形 物体 无 法 完全 包含 结构 元 素 ， 故 而 完全 消失 ;底部 的 第 
一 个 正方 形 同 结构 元 素 大 小 形状 完全 一 致 ， 刚 好 能 够 包含 结构 元 素 ， 所 
以 经 过 腐蚀 留 下 了 正中 心 的 1 个 像素 ， 其 余 物 体 边 界 均 “ 瘦 ”了 1 个 像素 。 


为 了 比较 效果 ， 图 10.6(c) 中 换 用 了 3x3 的 十 字 结 构 元 素 ， 这 时 图 
10.6 (b) 中 消失 的 顶部 的 十 字形 物体 因为 可 以 正好 包含 结构 元 素 了 而 
被 保留 了 1 个 中 心 像素 ， 还 需要 注意 的 是 连通 条 带 连接 端 和 图 10.6 (b) 
中 的 区 别 。 

图 10.6 (d) 中 采用 5x5 的 正方 形 结构 元 素 后 ， 所 有 物体 边界 继续 缩 
小 ， 而 小 于 它 的 物体 都 完全 消失 ， 原 始 图 像 中 5 个 像素 宽 的 连通 条 带 刚 
好 还 剩 下 中 间 的 1 个 像素 宽 的 连通 线 。 

当 图 10.6〈e) 中 正方 形 结构 元 素 增 大 到 6x6 之 后 ， 原 本 5 个 像素 宽 
的 连通 条 带 再 也 无 法 包含 整个 结构 元 素 ， 从 而 在 腐蚀 后 的 图 像 中 彻底 消 
失 ， 而 底部 也 只 有 原本 6x6 的 正方 形 物体 还 仅 存 1 个 像素 。 

采用 7x7 的 正方 形 结构 元 素 腐 蚀 之 后 ， 图 10.6 〈f) 中 只 保留 了 两 个 
主要 的 物体 ， 而 圆 形 物 体 和 和 矩形 物体 的 边界 也 都 分 别 缩减 了 3 个 像素 。 

例 10.1 中 ， 随 着 腐蚀 结构 元 素 的 逐步 增 大 ， 小 于 结构 元 素 的 物体 
相继 消失 。 由 于 腐蚀 运算 这 样 的 特点 ， 可 以 用 于 滤波 。 选 择 适当 大 小 和 
形状 的 结构 元 素 ， 可 以 滤 除 掉 所 有 不 能 完全 包含 结构 元 素 的 噪声 点 。 然 
而 ， 利 用 腐蚀 滤 除 噪声 有 一 个 缺点 ， 即 在 去 除 噪 声 点 的 同时 ， 对 图 像 中 
前 景物 体 的 形状 也 会 有 影响 ， 但 当 我 们 只 关心 物体 的 位 置 或 者 个 数 时 ， 
这 不 会 有 什么 问题 。 











10.2.2 膨胀 及 其 实现 


1. 理论 基础 
对 Z? 上 元 素 的 集合 A 和 S， 使 用 S 对 A 进行 脱 胀 ， 记 作 A @S， 形 式 化 
地 定义 为 


A@ S={z|(S). N AzY); (10-2) 


设想 有 原本 位 于 图 像 原点 的 结构 元 素 Ss， 让 S 在 整个 Z“ 平 面 上 移动 ， 





当 其 自身 原点 平移 至 z 点 时 S 相 对 于 其 自身 的 原点 的 映像 98 和 A 有 公共 的 
交集 ， 即 S$ 和 A 至 少 有 1 个 像素 是 重 又 的 ， 则 所 有 这 样 的 z 点 构成 的 集合 
为 对 A 的 膨胀 图 像 ， 如 图 10.7 所 示 。 

实际 上 ， 膨 胀 和 腐蚀 对 于 集合 求 补 和 反射 运算 是 彼此 对 偶 @ 的 ， 即 


【 注 】 包 注 : 对 偶 的 意义 : 某 个 图 像 处 理 系统 用 硬件 实现 了 腐蚀 
运算 ， 那 么 不 必 再 男 搞 一 套 膨 胀 的 硬件 ， 直 接 利 用 该 对 侦 就 可 以 实现 


(d) 拉 长 的 矩形 结构 元 素 B 





| 
di8 d dj8 
(e) 用 (d) 中 结构 元 素 对 4 膨胀 的 结果 
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A 图 10.7 膨胀 示意 图 “图 中 标 出 了 所 有 图 形 的 长 和 宽 


采用 原点 位 于 中 心 的 3x3 对 称 结构 元 素 的 膨胀 运算 效 末 模拟 如 图 
10.8 所 示 ， 物 体 间 小 于 3 个 像素 的 缝隙 都 被 脱 胀 所 弥合 。 

















(a) 原 图 像 A (b) 结构 元 素 S (c) A®BS 


和 图 10.8 膨胀 运算 模拟 











这 里 值得 注意 的 是 定义 中 要 求 和 A 有 公共 交集 的 不 是 结构 元 素 S 本 
身 ， 而 是 S 的 反射 集 5， 觉 得 熟悉 吗 ? 这 种 形式 似乎 容易 让 我 们 回忆 起 卷 
只 运算 ， 而 腐蚀 在 形式 上 则 更 像 相 关 运 算 。 由 于 图 10.8 中 使 用 的 是 对 称 
的 结构 元 素 ， 故 使 用 5 和 5 的 膨胀 结果 相同 。 但 对 于 图 10.9 所 示 的 非 对 称 
结构 元 素 的 膨胀 示例 ， 则 会 产生 完全 不 同 的 结果 ， 因 此 在 实现 膨胀 运算 
时 一 定 要 先 计算 5 。 

















(a) 原 图 像 A (b) 非 对 称 结构 元 素 S (ce) 5 (d) A®S 


和 结 


A 图 10.9 非 对 称 结构 元 素 的 膨胀 运算 


2. Matlab 实 现 

imdilate 函 数 用 于 完成 图 像 脱 胀 ， 其 常用 调用 形式 如 下 。 

12 =imdilate(L SE); 

参数 说 明 

e I 为 原始 图 像 ， 可 以 是 二 值 或 灰 度 图 像 〈 对 应 于 灰 度 膨胀 ) 。 

e SE 是 由 strel 函 数 返 回 的 自 定 义 或 预 设 的 结构 元 素 对 象 。 

返回 值 

e 12 为 膨胀 后 的 输出 图 像 。 

3. 膨胀 的 作用 

和 腐蚀 相反 ， 脱 胀 能 使 物体 边界 扩大 ， 具 体 的 膨胀 结果 与 图 像 本 壬 
构 元 素 的 形状 有 关 ， 脱 胀 常用 于 将 图 像 中 原本 断裂 开 来 的 同一 物体 





桥接 起 来 ， 对 图 像 进行 二 值 化 之 后 ， 很 容易 使 得 一 个 连通 的 物体 断裂 为 
两 个 部 分 ， 而 这 会 给 后 续 的 图 像 分 析 ( 如 要 基于 连通 区 域 的 分 析 统 计 物 
体 的 个 数 ) 造 成 困扰 ， 此 时 瓯 可 借助 膨胀 桥接 断裂 的 缝 聊 。 





[ 例 10.2] 形 态 学 腐蚀 和 膨胀 的 应 用 一 一 文字 断裂 与 桥接 。 
相应 的 程序 如 下 。 

>> 工 = imread('../starcraft.bmp); 9% 读 入 图 像 

>> figure, imnshow(D; % 得 到 图 10.10 (a) 

>> Iel = imerode(], [1 11;111;111]): %3x3 正 方形 结构 元 素 的 腐 


>> figure, imshow(Ie1); % 得 到 图 10.10 (b) 
>> Ie2 = imerode(Iel, [0 10;111;010)); %3x3 十 字形 结构 元 素 的 腐 


>> figure, imshow(Ie2); 9% 得 到 图 10.10 (c) 
>> Id1 = imdilate(le2,[111;111;111); 9%3x3 正 方形 结构 元 素 的 


脱 胀 

>> figure, imshow(1d1); 9% 得 到 图 10.10 (d) 

>> Id2 = imdilate(Id1, [111;111;111); %3x3 正 方形 结构 元 素 的 
脱 胀 

>> figure, imshow(Id2); 9% 得 到 图 10.10 (e) 

>> Id3 = imdilate(Id2, [010;111;010]); 

>> figure, imshow(Id3); % 得 到 图 10.10 〈f) ”%3x3 十 字形 结构 元 素 
的 膨胀 

上 述 程 序 的 运行 结果 如 图 10.10 所 示 。 


Starcraft 10 Years Starcraft 10 Years 





(a) 原始 图 像 starcraft.bmp (b) (a) 经 过 3x3 正方 形 结构 元 素 腐蚀 


Starcraft 10 Years 





(c) (b) 经 过 3x3 十 字形 结构 元 素 腐蚀 (d) (c) 经 过 3x3 正方 形 结构 元 素 膨胀 


Starcraft 10 Years Starcraft 10 Years 





(e) (d) 经 3x3 正方 形 结构 元 素 膨胀 (f) (e) 经 3x3 十 字形 结构 元 素 膨胀 


A 图 10.10 膨胀 示例 
10.2.3 开 运 算 及 其 实现 


开 运 算 和 财运 算 都 由 腐蚀 和 膨胀 复合 而 成 ， 开 运算 是 先 腐蚀 后 脱 
胀 ， 而 闭 运 算是 先 膨胀 后 腐蚀 。 下 面 先 介绍 开 运算 ，10.2.4 小 节 介 绍 比 


运算 。 
1. 理论 基础 
使 用 结构 元 素 $ 对 A 进 行 开 运算 ， 记 作 AoS， 可 表示 为 


AoS = (485) ®5 (10-4) 


一 般 来 说 ， 开 运算 使 图 像 的 轮廓 变 得 光 请 ， 断 开 狭 罕 的 连接 和 消除 
细毛 刺 。 

如 图 10.11 所 示 ， 开 运算 断 开 了 图 中 两 个 小 区 域 间 两 个 像素 宽 的 连 
接 〈 断 开 了 狭 罕 连 接 ) ， 并 且 去 除了 右 侧 物体 上 部 突出 的 一 个 小 于 结构 
元 素 的 2x2 的 区 域 〈《 去 除 细 小 毛刺 ) ; 但 与 腐蚀 不 同 的 是 ， 图 像 大 的 轮 
廓 并 没有 发 生 整体 的 收缩 ， 物 体位 置 也 没有 发 生 任何 变化 。 

根据 图 10.12 所 示 的 开 运 算 示 意图 ， 可 以 帮助 您 更 好 地 理解 开 运 算 
的 特点 。 为 了 比较 ， 图 10.12 中 也 标示 出 了 相应 的 腐蚀 运算 的 结果 。 














(a) 原 图 像 A (b) 结构 元 素 S 
A 图 10.11 开 运 算 效 果 模 拟 


AoS =U{(S), |(S), SA) 





(a) 结构 元 素 S 紧 贴 A 的 内 边界 滚动 (b) 结构 ”“〈c) A 中 的 圆 角 三 角形 轮廓 是 (d) 阴影 区 域 是 
元 素 S 开 运算 的 外 部 边界 开 运 算 的 结果 


和 图 10.12 开 运 算 示意 图 


在 图 10.12 中 ， 让 结构 元 素 $ 紧 贴 A 的 内 边界 滚动 ， 滚 动 过 程 中 始终 
保证 S 完 全 包含 于 A， 此 时 S 中 的 点 所 能 达到 的 最 靠近 A 的 内 边界 的 位 置 
就 构成 了 图 10.12〈c) 所 示 的 开 运 算 的 外 边界 。 从 这 个 意义 上 开 运 算 可 
以 表示 为 AoS=U {(S),|(S),SA}; 而 此 时 S$ 的 中 心 所 能 达到 的 最 靠近 A 的 
内 边界 的 位 置 就 构成 了 S 对 A 的 腐蚀 的 外 边界 [图 10.12 〈a) 中 的 虚线 轮 
h]。 

2. Matlab 实 现 

根据 定义 ， 以 相同 的 结构 元 素 先 后 调用 imerode 和 imdilate 即 可 实现 
开 操 作 。 此 外 ，Matlab 中 也 直接 提供 了 开 运 算 函 数 imopen， 其 调用 形式 
如 下 。 

I2 = imopen(L SE); 

参数 说 明 

e I 为 原始 图 像 ， 可 以 是 二 值 或 灰 度 图 像 ( 对 应 于 灰 度 开 〉。 

e SE 是 由 strel 函 数 返回 的 自 定义 或 预 设 的 结构 元 素 对 象 。 

返回 值 

e I2 为 开 运算 后 的 输出 图 像 。 

利用 imopen 对 例 10.1 中 的 图 像 erode_dilate.bmp 进 行 开 运算 的 Matlab 
程序 如 下 。 

>> I = imread('erode_dilate.bmp'); 

>> figure, imshow!(], []); % 显示 图 10.13 (a) 

>> Io = imopen(L, ones(6, 6)); % 采用 6*6 的 正方 形 结构 元 素 开 运 算 

>> figure, imshow(Io, []); % 显示 图 10.13 (b) 

上 述 程 序 运行 后 效果 如 图 10.13 所 示 。 

从 图 10.13 中 可 以 看 到 同 腐蚀 相 比 ， 开 运算 在 过 滤 噪 声 的 同时 并 没 
有 对 物体 的 形状 、 轮 廓 造成 明显 的 影响 ， 这 是 一 大 优势 。 但 当 我 们 只 关 











心 物体 的 位 置 或 者 个 数 时 ， 物 体形 状 的 改变 不 会 给 我 们 带 来 困扰 ， 此 时 
用 腐蚀 滤波 具有 人 处理 速度 上 的 优势 ( 同 开 运 算 相 比 节省 了 一 次 膨胀 运 


算 ) 。 
(a) erode dilate.bmp (b) 图 (a) 的 开 运 算 结 果 
A 图 10.13 开 运 算 结 果 


10.2.4 财运 算 及 其 实现 


1. 理论 基础 
使 用 结构 元 素 $S 对 A 进 行 团 运 算 ， 记 作 A.S， 可 表示 为 


A®S = (4® 5S) 85 (10-5) 





闭 运 算 同 样 使 轮廓 变 得 光滑 ， 但 与 开 运 算 相反 ， 它 通常 能 够 弥合 狂 
容 的 间断 ， 填 充 小 的 孔洞 。 

与 前 面 图 10.8 脱 胀 运算 效果 不 同 ， 图 10.14 所 示 的 闭 运算 在 前 景物 体 
整体 位 置 和 轮廓 不 变 的 情况 下 ， 弥 合 了 物体 之 间 完 度 小 于 3 个 像素 的 缝 
际 。 











(a) 原 图 像 A (b) 结构 元 素 S 














A 图 10.14 闭 运算 效果 模拟 








根据 图 10.15 所 示 的 闭 运算 示意 图 ， 可 以 帮助 您 更 好 地 理解 闭 运算 
的 特点 ， 为 了 比较 ， 图 10.15 中 也 给 出 了 相应 的 脱 胀 运算 的 结果 。 


A:S 





(a) 结构 元 素 S 紧 贴 集合 A 的 外 边界 滚动 (b) 闭 运算 的 外 部 边界 (c) 阴影 区 域 是 闭 运 算 的 结果 





A 图 10.15 闭 运算 示意 图 


这 次 我 们 让 结构 元 素 $ 紧 贴 A 的 外 边界 滚动 ， 滚 动 过 程 中 始终 保证 $S 
不 完全 离开 A ( (S)jnAz0) ， 此 时 S 中 的 点 所 能 达到 的 最 靠近 A 的 外 边 
界 的 位 置 束 构成 了 图 10.12(c) 所 示 的 闭 运 算 的 外 边界 。 而 此 时 S 中 心 
点 所 能 达到 的 最 靠近 A 的 内 边界 的 位 置 就 构成 了 S 对 A 的 膨胀 的 外 边界 
(图 10.15 (a) 中 的 虚线 轮廓 〉。 

从 图 10.12 和 图 10.15 我 们 还 注意 到 ， 在 圆 形 的 结构 元 素 作 用 下 ， 开 
运算 使 得 物体 小 于 180° 的 抛 角 变 得 圆滑 ， 大 于 180° 的 角 则 没有 变化 ， 腐 
刨 运算 则 刚好 与 开 运 算 相 反 ;， 而 闭 运算 使 得 物体 大 于 180° 的 抛 角 变 得 圆 
滑 ， 而 小 于 180° 的 抛 角 则 没有 变化 ， 脱 胀 运算 则 刚好 与 闭 运算 相反 。 





最 后 还 需要 说 明 的 是 开 闭 运算 也 是 对 偶 的 ， 然 而 与 腐蚀 和 膨胀 不 同 
的 是 ， 对 于 茶 图 像 多 次 应 用 开 或 闭 运算 和 只 进行 一 次 运算 的 效果 相同 ， 
即 有 


(A40B)oB= AoB, (A®eB)eB=AeB (10-6) 


2. Matlab 实 现 

根据 定义 ， 以 相同 的 结构 元 素 先 后 调用 imdilate 和 imerode 即 可 实现 
财 操 作 。 此 外 ，Matlab 中 也 直接 提供 了 闭 运算 函数 imclose， 其 用 法 同 
imopen 类 似 ， 这 里 不 再 袭 述 。 








本 节 将 介绍 一 些 非常 经 典 的 形态 学 应 用 ， 它 们 都 是 通过 将 10.2 节 
et 次 序 组 合 起 来 ， 并 且 采 用 一 些 特殊 的 结构 元 素 而 
实现 的 。 


10.3.1 小 节 将 要 介绍 的 击 中 击 不 中 变换 主要 用 于 图 像 中 茶 种 特定 形 
状 的 精确 定位 ， 其 后 将 要 讨论 的 很 多 形态 学 应 用 ， 如 轮廓 、 细 化 以 及 像 
机 有 于 我 们 抓 住 物体 最 本 质 的 特征 〈 轮 廓 、 形 状 ， 或 位 置 ) ， 
这 些 特征 都 是 强 有 力 的 图 像 描绘 子 ， 经 处 理 后 可 作为 后 续 的 识别 任务 所 
需要 的 特征 。 











10.3.1 三 “Fh 其 实现 


1. 理论 基础 
形态 学 击 中 击 不 中 变换 常用 于 图 像 中 某 种 特定 形状 的 精确 定位 ， 是 
一 种 形状 检测 的 基本 工具 。 记 作 A 六 S$， 可 表示 为 








4 图 y = (4951) mM (4952) (10-7) 


其 中 ，S1nS2=qg 且 S=S1US2， 实 际 上 S1 代 表 S 中 我 们 感 兴趣 的 物 
体 〈 要 检测 的 形状 ) 对 应 的 集合 ， 而 $2 为 $ 中 背景 部 分 对 应 的 集合 。 

从 式 〈10-7) 上 分 析 ， 击 中 与 击 不 中 变换 首先 用 我 们 感 兴 趣 的 物体 
S1 去 腐蚀 图 像 A， 得 到 的 结果 是 使 S1 完 全 包含 于 A 中 前 景 部 分 时 其 中 心 
点 位 置 的 集合 UL1， 可 以 将 U1 看 作 是 $S1 在 A 中 所 有 匹配 的 中 心 点 的 集 
合 。 为 了 在 A 中 精确 地 定位 S1 而 排除 邱 那 些 仅 仅 包 含 S1 但 不 同 于 S1 的 物 
体 或 区 域 ， 有 必要 引入 和 S1 相 关 的 背景 部 分 S2， 一 般 来 说 S2 是 在 S1 周 
围 包 络 着 S1 的 背景 部 分 ，S1 和 S2 和 在 一 起 组 成 了 S， 式 (10-7) 中 的 后 

- 半 正 是 计算 图 像 A 的 背景 A¢ 和 S 的 背景 部 分 S2 的 腐蚀 ， 得 到 的 结果 U2 

是 使 S 的 背景 部 分 S2 完 全 包含 于 Ac 时 S$ 中 心 位 置 的 集合 。U1 和 U2 的 交集 
自然 就 是 这 样 一 些 点 p 的 集合 : 当 S$ 中 心 位 于 p 时 ，S 的 前 景 〈 物 体 ) 部 分 
S1 和 A 中 的 某 个 前 景 部 分 完全 重合 ， 而 $ 的 背景 部 分 也 和 A 的 某 个 背景 半 
分 完全 重合 ， 而 S1 又 是 包 络 在 S2 其 中 的 ， 从 而 保证 了 我 们 感 兴趣 的 物体 
S1 在 图 像 A 的 p 点 处 找到 了 一 个 精确 匹配 。 读 者 可 再 结合 例 10.3 体 会 击 中 
击 不 中 变换 的 原理 。 

[ 例 10.3] 击 中 击 不 中 变换 。 

下 面 的 程序 首先 生成 了 一 个 如 图 10.16 〈a) 所 示 的 原始 图 像 ， 其 中 
最 左 侧 为 一 个 70x60 的 矩形 物体 X， 居 中 靠 下 的 为 一 个 50x50 的 正方 形 
Y， 右 上 方 的 正方 形 Z 的 边 长 为 30; 而 后 生成 了 如 图 10.16 (b) 所 示 的 结 
构 元 素 S 和 物体 S1; 接 下 来 ， 程 序 根据 式 〈10-7) 计算 I 与 5 的 击 中 击 不 
中 变换 I 凡 S。 

>> % 生成 原始 图 像 

>> [= Zeros(120, 180); 

>> I(11:80, 16:75) = 1; 

>> I(56:105, 86:135) = 1; 

>> I(26:55, 141:170) = 1 

>> figure, imnshow(D; 9% 得 到 图 10.16 (a) 























>> 
>> % 生成 结构 元 素 $ 

>> Se = zeros(58, 58); 

>> se(5:54, 5:54) = 1;”% 物体 S1 

>> figure, imshow(se); 9% 得 到 图 10.16 (b) 

>> 

>> % 击 中 击 不 中 变换 

>> Iel = imerode(], se)j; 9% 物体 腐蚀 

>> figure, imshow(Ie1);”% 得 到 图 10.16 (Cc) 

>> Ic=1-L 9%I 的 补 

>> figure, imshow(Ic);”% 得 到 图 10.16 (d) 

>> 92 = 1-se; 

>> figure, imshow(S2); 9% 得 到 图 10.16 (e) 

>> Ie2 = imerode(Ic, S2); 9% 背景 腐蚀 % 得 到 图 10.16 (f) 
>> Ihm = Iel & Ie2; % 两 次 腐蚀 的 交集 

>> figure, imshow(Ihm); 9% 得 到 图 10.16 (g) 

上 述 程序 的 运行 结果 如 图 10.16 所 示 。 


(b) S( 白 色 部 图 本 S1) 


(d) (a) 的 补 集 Ic (e) S (白色 部 分 为 背景 S2) 




















(g) 最 终 的 匹配 位 置 是 (ec) 和 (f) 的 交集 


A 图 10.16 击 中 击 不 中 变换 








图 10.16(g) 给 出 了 变换 的 最 终结 果 。 为 便于 观察 在 显示 时 每 幅 图 
像 周 围 都 环绕 着 一 圈 黑 色 边 框 ， 注 意 该 边框 并 不 是 图 像 本 身 的 一 部 分 。 

注意 

对 于 结构 元 素 S， 我 们 感 兴趣 的 物体 S1 之 外 的 背景 S2 不 能 选择 得 太 
宽 ， 因 为 使 得 $ 包 含 背 景 S2 的 目的 仅仅 是 定义 出 物体 S1 的 外 轮廓 ， 以 便 
We 从 这 个 意义 上 说 ， 物 体 S1 周 围 
有 一 个 像素 宽 的 背景 环绕 就 足够 了 ， 例 10.3 中 选择 了 4 个 像素 宽 的 背 
景 ， 是 为 了 使 结构 元 素 背景 部 分 S2 看 起 来 比较 明显 ， 但 如 果 背 景 部 分 过 
大 ， 则 会 影响 击 中 击 不 中 变换 的 计算 结果 ， 在 上 例 中 中 间 的 正方 形 Y 与 

















右上 的 正方 形 Z 之 间 的 水 平 距 离 为 6 ， 如 果 在 定义 S 时 ，S2 的 宽度 超过 6 
个 像素 ， 则 最 终 的 计算 结果 将 是 空 

根据 式 (10-3) 给 出 的 对 侦 关 系 ， 式 (10-7)〉 还 可 表示 为 如 下 两 种 
形式 ， 然 而 ， 式 (10-7) 更 为 直观 ， 更 易 理 解 。 


A®S= (AGS1) MN(A®5,) 
= (A SUD-(4@3:) (10-8) 
2. Matlab 实 现 


IPT 中 进行 击 中 击 不 中 变换 的 函数 为 bwhitmiss， 调 用 形式 为 
Ihm = bwhitmiss(I, S1, S2); 


参数 说 明 

e I 为 输入 图 像 。 

e S1 和 S2 即 为 式 〈10-7) 中 介绍 过 的 结构 元 素 。 
返回 值 





e Ihm 是 击 中 击 不 中 变换 后 的 结果 图 像 。 
如 果 使 用 bwhitmiss 函 数 来 完成 例 10.3， 则 只 需 下 面 的 一 名 代码 。 
Ihm = bwhitmiss(L se, S2); %se 和 S2 与 在 例 10. 3 中 时 的 意义 相同 





轮廓 是 对 物体 形状 的 有 力 描述 ， 对 于 图 像 分 析 和 识别 十 分 有 用 。 通 
过 边界 提取 算法 可 以 得 到 物体 的 边界 轮廓 ， 而 边界 跟踪 算法 在 提取 边界 
的 同时 还 能 依次 记录 下 边界 像素 的 位 置信 息 ， 下 面 分 别 介 绍 。 

1. 边界 提取 

要 在 二 值 图 像 中 提取 物体 的 边界 ， 容 易 想 到 的 一 个 方法 是 将 所 有 物 
体内 部 的 点 删除 〈 置 为 背景 色 ) 。 具 体 地 说 ， 可 以 逐 行 扫描 原 图 像 。 如 
果 发 现 一 个 黑 点 《图 10.17 中 黑 点 为 前 景点 ) 的 8 个 邻 域 都 是 黑 点 ， 则 该 





点 为 内 部 点 ， 在 目标 图 像 中 将 它 删 除 。 实 际 上 这 相当 于 末 用 一 个 3x3 的 
结构 元 素 对 原 图 像 进行 腐蚀 ， 使 得 只 有 那些 8 个 邻 域 都 有 黑 点 的 内 部 点 
被 保留 ， 再 用 原 图 像 减 去 腐蚀 后 的 图 像 ， 恰 好 删除 了 这 些 内 部 点 ， 留 下 
了 边界 像素 。 这 一 过 程 可 参见 图 10.17。 











(d) 用 A 沽 去 (c) 中 腐蚀 图 像 得 到 的 
边界 图 像 ， 在 图 中 贯穿 像素 中 心 的 
-条 黑色 线 标 出 了 1 个 像素 宽 的 边界 


(a) 原 图 像 A (b) 腐蚀 的 结构 元 素 S (c) A 被 S 腐蚀 后 


A 图 10.17 边界 提取 


[ 例 10.4] 边 界 轮廓 提取 。 

采用 前 述 方法 提取 提取 二 值 人 脸 图 像 边界 轮廓 的 Matlab 程 序 如 下 : 
>> 工 = imread('../head_portrait.bmp'"); % 读 入 原 图 像 

>> figure, imshow(D; 9% 得 到 网 10.18 (a)〉 中 的 图 像 

>> se = strel('square', 3);”%3*3 的 正方 形 结构 元 素 

>> Ie = imerode(], se);”% 腐 蚀 得 到 内 部 点 

>> Iout =I- Ie;”% 减 去 内 部 点 留 下 边界 点 

>> figure, imshow(Iout);。% 得 到 图 10.18(b)〉 中 的 图 像 

上 述 程序 的 运行 结果 如 图 10.18 所 示 。 





(a) 侧面 轮廓 的 二 值 化 图 像 head_portraitbmp (b) 采用 上 述 方法 边界 提取 后 图 像 
A 图 10.18 


2. 边界 跟踪 

为 了 依次 记录 下 边界 上 的 各 个 像素 ， 边 界 跟踪 首先 按照 某 种 扫描 规 
则 找到 目标 物体 边界 上 的 一 个 像素 ， 而 后 就 以 该 像素 为 起 始点 ， 根 据 某 
种 顺序 〈 如 顺 时 针 或 逆 时 针 ) 依次 找 出 物体 边界 上 的 其 余 像 素 ， 直 到 又 
回 到 了 起 始点 ， 完 成 整 条 边界 的 跟 踩 。 

例如 ， 我 们 可 以 按照 从 左 到 右 、 从 上 到 下 的 顺序 扫 摘 图像， 这 样 首 
先 会 找到 目标 物体 最 左上 方 的 边界 点 P0。 显 然 ， 这 个 点 的 左 侧 以 及 上 侧 
都 不 可 能 存在 边界 点 〈 人 否则 左 侧 或 者 上 侧 的 边界 点 就 会 成 为 第 一 个 被 扫 
描 到 的 边界 点 ) ， 因 此 不 妨 从 左下 方 同 逆 时 针 开始 探查 ， 如 左下 方 的 点 
是 黑 点 ， 和 直接 跟踪 至 此 边界 点 ， 否 则 探查 方 回 逆 时 针 旋 转 45*， 直 至 找 
到 第 一 个 黑 点 为 止 ， 跟踪 全 此 边界 点 。 找 到 边界 点 后 ， 在 当前 探查 方 回 
的 基础 上 顺 时 针 回 转 90*， 继 续 用 上 述 方法 搜索 下 一 个 边界 点 ， 直 到 探 
但 又 回 到 初始 的 边界 点 P0， 完 成 了 整 条 边界 的 跟踪 。 整 个 跟 中 过程 如 图 
10.19 所 示 。 











图 10.19 轮廓 跟踪 算法 示意 
10.3.3 区 域 填充 


区 域 填充 可 视 为 边界 提取 的 反 过 程 ， 它 是 在 边界 已 知 的 情况 下 得 到 
边界 包围 的 整个 区 域 的 形态 学 技术 。 

问题 的 描述 如 下 。 已 知 某 一 8 连通 边界 和 边界 内 部 的 茶 个 点 ， 要 求 
从 该 点 开始 填充 整个 边界 包围 的 区 域 ， 这 一 过 程 也 称 为 "种子 ?填充 ， 填 
充 的 开始 点 被 称 为 “种子 ”。 

首先 我 们 注意 到 ， 对 于 4 连通 的 边界 ， 其 围 成 的 内 部 区 域 是 8 连通 
的 ， 而 8 连通 的 边界 围 成 的 内 部 区 域 却 是 4 连通 的 ， 如 图 10.20 所 示 。 

















(a) 4 连通 边界 的 8 (b) 用 来 填充 4 连通 (c) 8 连通 边界 的 4 (d) 用 来 填充 8 连通 
连通 内 部 区 域 边界 的 3X3 结构 元 素 连通 内 部 区 域 边界 的 十 字 结 构 元 素 


A 图 10.20 


为 了 填充 4 连通 的 边界 应 选择 图 10.20 (b) 中 的 3x3 结 构 元 素 ， 而 为 
在 8 连通 边界 内 从 种 子 点 得 到 区 域 我 们 选用 图 10.20 〈d) 的 十 字 结 构 元 
素 S 对 初始 时 仪 为 种 子 点 的 图 像 B 进 行 膨胀 ， 十 字 结 构 元 素 S 能 够 保证 只 
要 B 在 边界 A 的 内 部 《不 包括 边界 本 身 ) ， 每 次 膨胀 都 不 会 产生 边界 之 
外 的 点 《新 膨胀 出 来 的 点 要 么 在 边界 内 部 ， 要 么 最 多 沙 在 边界 上 ) ， 这 
样 只 需 把 每 次 膨胀 的 结果 图 像 和 边界 的 补 图 像 Ac 相交 ， 就 能 把 膨胀 限 
制 在 边界 内 部 。 随 着 对 B 的 不 断 膨 胀 ，B 的 区 域 不 断 生长 ， 但 每 次 膨胀 
后 与 Ac 的 交 又 将 B 限 制 在 边界 A 的 内 部 ， 这 样 一 直到 最 终 B 充 满 整 个 A 的 
内 部 区 域 ， 停 止 生长 。 此 时 的 B 与 A 的 并 集 即 为 最 终 的 区 域 填充 结果 。 

算法 概要 如 下 。 

初始 化 : bo= 种 子 点 

循环 : Do b;,1=(b; @S)NAr 

Until b; ,1==b; 

图 10.21 (d) 一 gj) 形象 地 模拟 了 整个 区 域 填 充 过 程 。 















(c) 十 字 结 构 元 素 8 




















(e) B0 用 8 膨胀 1 次 (f) B1=B0 45 将 膨胀 限制 在 4 之 内 

















(i) 最 终 膨胀 结果 Bi == B， (j) 最 终 膨胀 结果 B 与 边界 A 的 并 集 BWUA 
A 图 10.21 区 域 填充 效果 模拟 


在 Matlab 中 ， 可 以 使 用 bpwmorph 函 数 方便 地 实现 区 域 填 充 。 关 于 


bwmorph 函 数 将 在 10.3.8 小 节 中 介绍 。 一 个 区 域 填充 的 实际 效果 如 图 
10.22 所 示 。 





Ca) 原 图 像 (b) 图 (a) 的 填充 效果 
A 图 10.22 区 域 种 子 填充 效果 (种 子 点 设置 于 图 像 中 心 ) 


10.3.4 连通 分 量 提 取 及 其 实现 


连通 分 量 的 概念 在 1.3.1 小 节 中 曾 介绍 过 。 在 二 值 图 像 中 提取 连通 分 
量 是 许多 自动 图 像 分 析 应 用 中 的 核心 任务 。 提 取 连 通 分 量 的 过 程 实际 上 
也 是 标注 连通 分 量 的 过 程 ， 通 常 的 做 法 是 给 原 图 像 中 的 每 个 连通 区 分 配 
个 唯一 代表 该 区 域 的 编号 ， 在 输出 图 像 中 该 连通 区 内 的 所 有 像素 的 像 
素 值 就 赋值 为 该 区 域 的 编号 ， 我 们 将 这 样 的 输出 图 像 称 为 标注 图 像 。 

1. 理论 基础 

这 里 准备 介绍 一 种 是 基于 形态 学 的 膨胀 操作 的 提取 连通 分 量 的 方 
法 ， 另 一 种 递归 的 方法 将 在 10.3.6 小 节 的 像素 化 算法 中 给 出 。 以 8 连通 的 
情况 为 例 ， 对 于 图 10.23 (a) 的 内 含 多 个 连通 分 量 的 图 像 A， 从 仅 为 连 
通 分 量 A1 内 部 的 某 个 点 的 图 像 B 开 始 ， 不 断 采用 如 图 10.23 (c) 所 示 的 
结构 元 素 S 进 行 膨胀 。 由 于 其 他 连通 分 量 与 A1 之 间 至 少 有 一 条 1 个 像素 
宽 的 空白 缝 际 ( 图 10.23 (a) 中 的 虚线 ) ，3x3 的 结构 元 素 保证 了 只 要 B 

















在 区 域 A1 的 内 部 ， 则 每 次 膨胀 都 不 会 产生 位 于 A 中 其 他 连通 区 域 之 内 的 
点 ， 这 样 只 需 用 每 次 膨胀 后 的 结果 图 像 和 原始 图 像 A 相交 ， 就 能 把 膨胀 
限制 在 A1 内 部 。 随 着 对 B 的 不 断 脱 胀 ，B 的 区 域 不 断 生长 ， 但 每 次 膨胀 
后 与 A 的 交 又 将 B 限 制 在 连通 分 量 A1 的 内 部 ， 直 到 最 终 BB 充 满 整 个 连通 
分 量 A1， 对 连通 分 量 A1 的 提取 完毕 。 

算法 概要 如 下 。 

初始 化 : bo= 连 通 分 量 A1l 中 的 某 个 点 

循环 : Do b;,1=(b; @S)nA 

Until b;,1==b, 





国画 图 男 轩 夯 国 硬 面 图 
国画 故 四国 曾 画 逆 硬 辕 
面 面 四 西国 面 古国 面 硬 
国 四 四 上 四面 回 面 硬 面 国 


取 面 画 田 图 大 轩 国 本 轩 





a) 含有 2 个 连通 分 量 的 图 像 A (b) A 的 连通 分 量 标注 图 像 (c) 3X3 结构 元 素 S 


A 图 10.23 连通 分 量 提 取 结 果 





提取 连通 分 量 的 算法 与 区 域 填 充 算法 十 分 相似 ， 只 需 改变 脱 胀 结构 
元 系 〈8 连 通 使 用 3x3 的 正方 形 结构 元 素 ，4 连 通 使 用 3x3 十 字形 结构 元 
素 ) 并 且 把 每 次 膀 胀 后 同 As 的 交 改 为 同 A 的 交 。 

2. Matlab 实 现 

在 Matlab 中 ， 连 通 分 量 的 相关 操作 主要 借助 IPT 函数 bwlabel 实 现 ， 
其 调用 语法 为 

[L num] = bwlabel(Ibw, conn) 

参数 说 明 

e Ibw 为 一 幅 输入 二 值 图 像 。 








e conn 为 可 选 参数 ， 指 明 要 提取 的 连通 分 量 是 4 连通 还 是 8 连通 ， 默 
认 值 为 8。 

返回 值 

e 工 为 类 似 于 图 10.23 (b) 的 标注 图 像 。 

enum 为 二 值 图 像 bw 中 连通 分 量 的 个 数 。 

提取 连通 分 量 的 应 用 十 分 广泛 ， 利 用 标注 图 像 可 以 方便 地 进行 很 多 
基于 连通 区 的 操作 。 例 如 要 计算 某 一 连通 分 量 的 大 小 ， 只 需 扫 摘 一 遍 标 
注 图 像 ， 对 像素 值 为 该 区 编写 的 像素 进行 计数 ， 又 如 要 计算 某 一 连通 分 
量 的 质心 ， 只 需 扫 摘 一 过 标注 图 像 ， 找 出 所 有 像素 值 为 该 区 编号 的 像素 
的 x、y 坐 标 ， 然 后 计算 其 平均 值 。 

下 面 结合 2 个 Matlab 实 例 来 说 明 。 

[ 例 10.5] 在 人 脸 局 部 图 像 中 定位 嘴 的 中 心 。 

我 们 希望 在 如 图 10.24 〈a) 所 示 的 图 像 中 定位 中 的 中 心 ， 假 定 已 经 
掌握 了 输入 图 像 中 的 某 些 经 验 知识 ， 即 中 部 占据 了 图 像 的 大 部 分 区 域 且 
从 灰 度 上 易于 与 周围 皮肤 分 离开 来 。 于 是 针对 性 地 拟定 了 在 二 值 化 图 像 
中 寻找 最 大 连通 区 域 中 心 的 解决 方案 ， 上 基体 步 又 如 下 。 

(1) 对 输入 图 像 进 行 二 人 
Cj 标注 三 旧 通 分 量 。 
(3) 找 出 最 大 的 连通 分 量 。 
(4) 计算 最 大 连通 分 量 的 中 心 。 
依照 上 述 思 路 实现 的 Matlab 代码 如 下 ， 读 者 可 以 在 金 羽 图 书 论坛 
(http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖 
子 附件 的 第 10 章 Code 目录 下 的 locateMouth.m 文 件 中 找到 。 
% locateMouth.m 
I = imread('../mouth.bmp'"); % 读 入 图 像 
Id = im2double(D); 
figure, imshow(Id) % 得 到 10.24 (a) 








Ibw = im2bw(Id, 0.38); % 以 0.38 为 国 值 二 值 化 
Ibw = 1 - Ibw: % 为 在 Matlab 中 进行 处 理 ， 将 图 像 反 色 


figure, imshow(Ibw) % 得 到 10.24 (b) 
hold on 


[L, num | 


9% 找 出 最 大 的 连通 分 量 〈 嘴 ) 
max = 0; % 当前 最 大 连通 0 
indMax = 0; % 当前 最 大 连 
for k = 1:num 
[y x] = find(L == 
索引 集合 x 
nSize = length(y); % 计算 该 连 
ifnSize > max) 


max = nSize; 


indMax = k: 
end 
end 
if indMax == 0 
disp(' 没 有 找到 连通 分 量 ') 
return 
end 





% 计算 并 显示 最 大 连通 分 量 〈 嘴 ) 的 中 心 


[y x] = find(L == indMax); 
eMean = mean(y); 


XMean = mean(X); 


= bwlabel(Ibw, 8); % 标注 连通 分 
disp([' 图 中 共有 ' num2str(num) ' 个 连通 分 量 


通 分 量 的 索引 





k); 9 找 出 编号 为 k 的 连 


通 区 的 行 索 引 集合 y 和 列 


通 区 的 像素 数目 


plot(XMean, yMean, "Marker', '0', "MarkerSize', 14, 'MarkerEdgeColor, 


'IMarkerFaceColor ，w); 

plot(XMean, yYMean，Marker,*#*'，Marker9ize, 12，MarkerEdgeColor， 
kD; % 得 到 10.24 (c) 

上 述 程序 运行 后 结果 如 图 10.24 所 示 。 





(a) 嘴 部 图 像 mouth.bmp 





) (a) 经 二 值 化 后 (ec) 基于 上 述 方 法 定位 的 嘴 的 中 心 ， 用 * 标 出 





A 图 10.24 嘴 部 定位 


我 们 看 到 在 以 0.38 为 闷 值 分 割 后 ， 得 到 的 图 10.24 (b) 中 的 二 值 图 
像 共 有 4 个 连通 分 量 ， 结 合 经 验 知 识 ， 可 以 认为 最 大 的 连通 分 量 对 应 于 
嘴 部 。 语 句 [y x] = find(L = = k) 用 来 在 标注 图 像 L 中 找 出 编号 为 k 的 连通 
区 的 行 索引 集合 y 和 列 索引 集合 x， 找 出 所 有 连通 区 中 最 大 的 一 个 ， 计 算 
向 量 y 和 x 的 平均 值 ， 即 为 该 区 域 中 心 的 坐标 ， 结 算 结果 在 图 10.24 (c) 
中 用 * 显 示 了 出 来 。 

[ 例 10.6] 细 菌 计数 。 

要 对 图 10.25 (a) 中 显微镜 视野 内 的 细菌 进行 计数 ， 我 们 的 思路 是 
在 二 值 化 后 的 黑白 图 像 中 统计 连通 区 的 个 数 ， 从 而 确定 细菌 的 个 数 。 首 
先 对 原始 图 像 进 行 闷 值 处 理 ， 得 到 图 10.25(b〉 中 的 三 值 化 图 像 ， 注 意 
到 下 方 的 一 个 细菌 出 现 了 “断裂 "?”， 这 可 能 是 由 于 阔 值 选择 不 当 〈( 这 里 是 
闹 值 偏 高 ) 或 是 图 像 整 体 灰 度 不 均 造 成 根本 不 存在 一 个 能 够 正确 分 割 出 
所 有 物体 的 立 值 。 

事实 上 , “断裂 ”和 ?合并 ?都 会 给 计数 带 来 困扰 ， 针 对 图 10.25 (b) 
闵 值 偏 高 易 产 生 “ 断 裂 *” 的 特点 ， 我 们 对 图 10.25 (b〉 中 二 值 图 像 采 用 























3x3 的 结构 元 素 进 行 脱 胀 ， 在 膨胀 后 的 图 像 图 10.25 《〈c) 中 ， 我 们 看 
到 “断裂 ” 被 成 功 “ 接 合 "， 同 时 又 没有 产生 不 同 细 苗 的 “合并 ”， 再 统计 图 
10.25 (c) 中 的 二 值 图 像 中 连通 分 量 的 数目 ， 即 得 到 细菌 的 准确 计数 。 

相应 的 Matlab 代 码 如 下 。 

>>I= imread('../bw_bacteria.bmp'"); % 读 入 二 值 化 后 的 细菌 图 像 

>> figure, imshow(D % 得 到 (b) 图 

>> [L, num] = bwlabel(, 8); % 直接 统计 (b) 中 连通 区 个 数 

>> num % 显示 细菌 个 数 ， 由 于 “ 汤 裂 * 存 在 ， 比 实际 数目 多 1 

num = 

22 

>> Idil = imdilate(L, ones(3,3)); 9% 及 用 3x3 的 结构 元 取 膨胀 

>> figure, imshow(Idil) % 得 到 (c) 图 

>> [L, num] = bwlabel(Idil, 8);。% 统计 (c) 中 的 连通 区 个 数 

>> num % 实际 的 细 落 个 数 


nuUum 一 





(a) 显微镜 下 的 细菌 图 像 (b) 将 (a) 中 图 像 二 值 化 后 (ec) 对 (b) 中 图 像 采 用 3x3 的 结构 元 素 膨胀 
A 图 10.25 统计 连通 区 个 数 


10.3.5 细 化 算法 





“骨架 ?是 指 一 幅 图 像 的 骨骼 部 分 ， 它 描述 物体 的 几何 形状 和 拓扑 结 

构 ， 是 重要 的 图 像 描 绘 子 之 一 。 计算 骨架 的 过 程 一 般 称 为 “ 细 化 ”或 “ 骨 
架 化 ”， 在 包括 文字 识别 、 工 业 零 件 形状 识别 以 及 印刷 0 

在 内 的 很 多 应 用 中 ， 细 化 过 程 都 发 挥 肴 关键 作用 。 通 单 ， 对 我 们 感 兴 
的 目标 物体 进行 细 化 有 助 于 突出 目标 的 形状 特点 和 拓扑 结构 ， 
见 余 的 信息 量 

[ 例 10.7] 手 写字 符 的 细 化 。 

同类 物体 的 由 于 其 线条 粗细 不 同 而 显得 差别 很 大 (图 10.26 (a) 和 
Cc) 中 的 “7”) ， 这 无 疑 会 给 后 续 的 识别 任务 带 来 困扰 ， 例 如 对 于 10.26 
中 的 图 像 来 说 识别 程序 很 可 能 会 认为 〈a) 中 的 “7 更 像 图 10.26 (b) 中 
的 “1” 而 不 是 图 10.26 (c) 中 的 “7”。 但 将 它们 的 形状 细 化 之 后 ， 归 一 化 
为 相同 的 宽度 ， 如 1 个 像素 宽 ， 此 时 我 们 发 现 图 10.26 (d) ~ (f) 的 3 幅 
数字 骨架 图 像 所 体现 出 来 的 完全 是 数字 本 身 的 几何 形状 ， 在 这 些 细 化 后 
的 图 像 中 选择 适当 的 特征 进行 分 类 将 得 到 理想 的 结果 。 














(a) 待 分 类 的 手写 字符 “7” 〈b) 比 对 字符 “1” (c) 比 对 字符 “7” 
过 细 化 后 (e) (b) 经 细 化 后 (f) (6) 经 细 化 后 


A 图 10.26 手写 数字 字符 的 细 化 


下 面 我 们 来 看 一 下 细 化 算法 的 实现 思路 。 

考虑 某 图 像 中 的 一 个 3x3 的 区 域 ， 对 其 中 各 点 标记 名 称 P1,P2， 
.…,P8， 如 图 10.27 〈a) 所 示 。 这 里 规定 以 1 表示 黑色 ，0 表 示 和 白色 ， 则 如 
果 中 心 P1l=1( 黑 点 ) ， 下 面 4 个 条 件 同 时 满足 ， 残 删除 P1( 令 P1=0)。 

(1) 2-NZ(P1)-6。 

(2) Z0(P1)=1。 

(3) P2*P4*P8=0 或 者 Z0(P1)z1。 

(4) P2*P4*P6=0 或 者 Z0(P4)z1。 

其 中 的 标记 NZ 〈P) 表示 P 点 的 8 邻 域 中 1 的 数目 ， 而 Z0 (P) 可 按照 
如 下 方式 计算 。 





国 匡 加 
:3 
(1) 令 nCount=0 
(2) 如 果 p.10=0 并 且 p.1 .1=1 
nCount 十 十 
(3) 如 果 p.1.1=0 并 且 po .1=0 
nCount ++ 
(4) 如 有 果 po.1=0 并 且 p1 .1=1 
nCount ++ 
(5) 如 果 p1.1=0 并 且 p10=1 
nCount ++ 
(6) 如 果 p10=0 并 且 p11=1 
nCount ++ 


(7) 如 果 p11=0 并 且 po1=1 


nCount ++ 
(8) 如 朱 po1l=0 并 且 p.11=1 
nCount ++ 
(9) 如 来 p.11=0 并 且 p.10=1 
nCount ++ 
(10) Z0(P)=nCount 
对 图 像 中 的 每 一 个 点 重复 这 一 步骤 ， 直 到 所 有 的 点 都 不 可 删除 为 
止 。 图 10.25 给 出 了 细 化 算法 的 示意 。 





(a) 3X3 邻 域 (b) 删除 Pl 会 分 割 区 域 (c) 删除 Pl 会 缩短 边缘 (d) 2 三 NZ(P1) 三 6， 但 P1 不 可 删除 


A 图 10.27 细 化 算法 示意 


在 Matlab 中 ， 可 以 使 用 bwmorph 函数 方便 地 实现 图 像 细 化 。 关 于 
bwmorph 函数 将 在 10.3.8 小 节 中 介绍 ， 一 个 图 像 细 化 的 具体 效果 如 图 
10.28 所 示 。 


| Love DIP 


A 图 10.28 图 像 细 化 


10.3.6 像素 化 算法 


细 化 适用 于 和 物体 拓扑 结构 或 形状 有 关 的 应 用 ， 如 前 述 的 手写 字符 
识别 。 但 有 时 我 们 关心 的 是 目标 对 象 是 否 存 在 、 他 们 的 位 置 关系 、 或 者 
是 个 数 ， 这 时 在 预 处 理 中 加 入 像素 化 步 又 就 会 给 后 续 的 图 像 分 析 带 来 极 
大 的 方便 。 

像素 化 操作 首先 找到 二 值 图 像 中 所 有 的 连通 区 域 ， 然 后 用 这 些 区 域 
的 质心 作为 这 些 连 通 区 域 的 代表 ， 即 将 1 个 连通 区 域 像素 化 为 位 于 区 域 
质心 位 置 的 1 个 像素 。 

有 时 还 可 以 进一步 引入 一 个 低 闷 值 lowerThres os 
upperThres 用 来 指出 图 像 中 我 们 感 兴 趣 的 对 象 连通 数 〈 和 连通 分 量 中 的 像 
素数 目 ) 的 大 致 范围 ， 从 而 只 像素 化 图 像 中 大 小 介 于 lowerThres 和 
upperThres 之 间 的 连通 区 域 ， 而 连通 数 低 于 lowerThres 或 高 于 upperThres 
的 对 象 都 将 被 滤 除 ， 这 就 相当 于 使 算法 同时 具有 了 过 滤 噪 声 的 能 力 ， 如 
图 10.29 所 示 。 





























| 看 画面 世 国 面 画 夯 面 画 画 面 画 面 面 而 
覃 面 国画 大 画 画 古国 国力 男 男 面 面 而 夯 看 醒 男 国 国 国 国 
(a) 原始 图 像 A (b) A 经 像素 化 处 理 之 后 ， 注 意 A 中 <lowerThres 和 >upperThres 


的 连通 区 域 均 被 滤 出 了 , 在 这 之 司 的 区 域 都 像素 化 到 了 区 域 的 质心 


A 图 10.29 像素 化 效果 模拟 ，lowerThres = 3，upperThres = 10 








实现 细 化 算法 的 核心 是 找到 连通 区 域 ， 接 下 来 只 需要 根据 
lowerThres 和 upperThres 参 数 把 内 涵 像 素数 不 满足 要 求 的 连通 区 域 滤 除 ， 
并 计算 保留 的 连通 区 域 的 几何 中 心 。 由 于 连通 区 域 的 Matlab 实 现 已 在 
10.3.4 小 节 给 出 ， 上 述 实现 过 程 就 留 给 读者 作为 练习 。 





10.3.7 凸 这 


理论 基础 

如 果 连 接 物 体 A 内 任意 两 点 的 直线 段 都 在 A 的 内 部 ， 则 称 A 是 凸 的 。 
任意 物体 A 的 凸 沉 H 是 包含 A 的 最 小 凸 物体 。 

我 们 总 是 希望 像素 化 算法 能 够 找到 物体 的 质心 来 代表 该 物体 ， 但 在 
实际 中 ， 可 能 由 于 光照 不 均等 原因 导致 图 像 在 二 值 化 后 ， 物 体 本 里 形 状 
发 生 缺 损 ， 像 素 化 算法 就 无 法 找到 物体 真正 的 质心 。 此 时 可 适当 地 进行 
凸 壳 处 理 ， 弥 补 凹 损 ， 算 法 会 找到 包含 原始 形状 的 最 小 凸 多 边 形 ， 如 图 
10.30 所 示 。 














A 图 10.30 凸 壳 运算 效果 模拟 


令 si ，i=1,2,3,4, 表 示 图 10.31 中 的 4 个 结构 元 素 。 则 凸 壳 的 计算 过 程 
如 下 。 


XB UA i=1,2,3,4 所 1,2.3,... 


XI =A。 现 在 令 Di ER 这 里 下 标 “conv” 表 示 在 茹 = 各 -1 时 收 
敛 。A 的 凸 壳 为 


4 
CD=UwD 





用 结构 元 素 s: 对 A 反 复 进 行 击 中 或 击 不 中 变换 ， 直 到 不 再 发 生 进 一 
步 变 化 时 ， 与 A 求 并 集 ， 结 果 记 作 D1。 由 结构 元 素 si (i=2,3,4) 和 A 进行 
相同 的 运算 可 得 Di (i=2,3,4) 。 最 后 ，4 个 D 的 并 组 成 了 A 的 凸 党 。 








A 图 10.31 凸 却 计算 中 的 4 个 结构 元 系 〈 图 中 “X” 表 示 不 关心 该 像 系 的 
值 ) 





为 确保 在 上 述 的 生长 过 程 中 凸 壳 不 会 超出 凸 性 所 需 的 最 小 尺寸 很 
多 ， 可 以 限制 其 生长 ， 以 便 凸 寺 不 会 超出 初始 时 包含 物体 A 的 最 小 窜 
形 。 

山 完 的 处 理 效果 如 图 10.32 所 示 。 


(a) 原 图 像 (b) 图 (a) 的 凸 壳 








A 图 10.32 凸 壳 计算 结 
10.3.8 bwmorph i 数 


本 章 的 很 多 形态 学 操作 都 可 由 IPT 函数 bwmorph 实 现 ， 该 函数 的 调 
用 语法 为 

Iout = bwmorph(I, operation, n); 

参数 说 明 

e I 为 输入 二 值 图 像 。 

e operation 是 一 个 指定 操作 类 型 的 字符 串 ， 第 用 的 合法 取 值 如 表 





10.2 所 示 。 

e 可 选 参数 n 是 一 个 正 整 数 ， 用 于 指定 将 被 重复 的 操作 次 数 ， 默 认 
为 1。 当 n=Inf 时 表示 重复 操作 一 直到 网 像 停止 改变 为 止 。 

返回 值 

e Iout 为 经 过 n 次 由 operation 参 数 指定 的 形态 学 操作 后 的 输出 图 像 。 


表 10.2 operation 参 数 常 用 取 值 及 意义 




















合法 取 值 功能 描述 
'bridge' 桥接 由 单个 像素 颖 际 分 隔 的 前 景 像素 
'clean' 清除 孤立 的 前 景 像素 
"diag' 围绕 对 角 线 相连 的 前 景 像素 进行 填充 
‘fill' 填充 单个 像素 的 孔洞 
‘hbreak' 去 掉 前 景 中 的 HH 形 连 结 

如 点 PP 的 8 邻 域 中 一 半 以 上 的 像素 为 前 景 像素 ， 则 使 P 也 为 前 景 像素 ; 

"majority' 人 理 则 使 P 为 背景 像素 
Temove' 去 处 内 部 像素 〈 无 背景 像素 相 邻 的 前 景 像素 ) 
'shrink' 将 物体 收缩 为 一 个 点 或 者 带 洞 的 环形 
skel | 寺 骨骼 化 图 像 
'Spur 去 除 “ 毛 刺 ” 
"thicken' 粗 化 物体 
"thin' 将 物体 细 化 至 最 低 限度 相连 的 线形 
10.4 灰 度 I 基本 形态 学 运 


本 节 我 们 把 二 值 图 像 的 形态 学 处 理 扩展 到 灰 度 图 像 的 基本 操作 ， 
括 灰 度 膨 胀 、 灰 度 腐蚀 、 灰 度 开 和 灰 度 闭 。 此 外 ，10.4.4 小 节 还 将 介 
一 个 灰 度 形态 学 的 经 典 应 用 一 一 顶 帆 变换 〈top-hat) ， 用 以 解决 图 像 的 
光照 不 均 问题 。 





10.4.1 灰 度 脱 胀 及 其 实现 


1. 理论 基础 
令 F 表 示 灰 度 图 像 ，S 为 结构 元 素 ， 使 用 S 对 进行 膨胀 ， 记 作 
F@S， 形 式 化 地 定义 为 


(FO@S)(x,y)=max{F(x—x,y—y)+S(x,y)|(x',y)eDs! (10-9) 





式 中 :Ds 是 S 的 定义 域 。 

计算 过 程 相当 于 让 结构 元 素 S 关 于 原点 的 镜像 3 在 图 像 F 的 所 有 位 置 
上 滑 过 ， 而 在 此 过 程 中 要 保证 (x+x*, y+y’) 始 终 灰 度 图 像 F 之 内 。 脱 胀 结 
果 F@S 在 其 定义 域内 每 一 点 (x, y) 处 的 取 值 为 以 C(x，y) 为 中 心 ， 在 
5 规定 的 局 部 邻 域内 F 与 $ 之 和 的 最 大 值 。 例 如 ， 对 于 正方 形 结构 元 素 
S(-x0 一 x0,-y0~y0， 中 心 为 (0,0))， 膨 胀 结果 为 F 与 5 之 和 在 局 部 邻 域 
[x-x0,x+x0;y-y0,y+y0] 内 的 最 大 值 。 注 意 这 一 过 程 与 卷 积 有 许多 相似 之 
处 ， 只 是 用 最 大 值 运算 代替 卷 积 求 和 ， 用 加 法 用 算 代替 卷 积 乘积 。 

与 二 值 形态 学 不 同 的 是 ，F(xwy) 和 S(x,y) 不 再 是 只 代表 形状 的 集合 ， 
而 是 二 维 函 数 ， 它 们 的 定义 域 指明 了 其 形状 ， 此 外 它们 还 有 高 度 信息 ， 
由 函数 值 指出 。 

图 10.33 给 出 了 一 维 灰 度 膨胀 的 示意 图 ， 如 10.33 (c) 中 ， 在 x0 处 
F@S (x0) 的 值 即 为 max{F(x0-X)+SGXD|-x0<X'< x0}+， 有 具体 到 这 里 应 为 
h+F(x0+x0); 而 在 t 处 F@S (t) =max{F(t- x ")+S(x'") |-x0< x '< x0} 
=F(t)+h; 注意 造成 F@S (x) 中 间 部 分 量 水 平 走 势 的 原因 是 F(x) 在 x=t 处 达 
到 了 局 部 最 大 值 。 



































-x0 x0 
(a) 一 维 函 数 F(x) (b) 一 维 结构 元 素 S(x) 


P(x)=max{ A Xx )+S(x )|-x0<x <x0 } 





x0 | x0 
(c) 一 维 灰 度 脱 胀 示意 “外围 的 长 虚线 给 出 了 膨胀 结果 所 多 5S ) 


和 图 10.33 灰 度 膨胀 示意 图 





除了 有 具 有 高 度 的 结构 元 素 外 ， 实 际 应 用 中 使 用 更 多 的 是 一 种 平坦 
(高 度 为 0) 的 结构 元 素 ， 这 种 结构 元 素 只 能 由 0 和 1 组 成 ， 为 1 的 区 域 指明 
了 运算 涉及 的 范围 。 实 际 上 ， 二 值 形 态 学 中 的 结构 元 素 可 视 为 一 种 特殊 
(高 度 为 0) 的 灰 度 形态 结构 元 素 。 当 应 用 这 种 结构 元 素 时 ， 灰 度 膨 上 胀 
完全 变 成 了 局 部 最 大 值 运算 ， 其 计算 公式 可 简化 为 














F@S(x,y)=max{f (x—x',y—y")|((x',y'")eDs} (10-10) 


2. Matlab 实 现 

只 要 以 灰 度 图 像 和 相应 的 灰 度 膨胀 结构 元 又 为 参数 调用 imdilate 函 
数 即 可 实现 灰 度 膨胀 。 平 坦 结构 元 素 的 创建 方法 与 二 值 形态 学 中 相同 ; 
而 非 平坦 结构 元 素 也 可 通过 strel 函 数 以 如 下 方式 创建 。 

SE = strel(NHOOD, HEIGHT); % 创 建 非 平坦 的 结构 元 素 

参数 说 明 

e NHOOD 为 指明 结构 元 素 定 义 域 的 矩阵 ， 只 能 由 0 和 1 组 成 。 

e HEIGHT 是 一 个 与 NSHOOD 具 有 相同 尺寸 的 矩阵 ， 指 出 了 对 应 于 
NHOOD 中 每 个 元 素 的 高 度 。 

返回 值 

e SE 为 返回 的 非 平 坦 结构 元 素 。 

下 面 结合 例 10.8 来 说 明 strel 和 imdilate 函 数 在 灰 度 膨胀 中 的 用 法 。 

[ 例 10.8] 灰 度 脱 胀 。 

分 别 用 高 度 为 1 和 平坦 的 结构 元 素 实 现 灰 度 膨 胀 ， 并 绘制 出 膨胀 前 
后 的 函数 图 形 。 

相应 的 Matlab 实 现代 码 如 下 。 

>>f=[01234543210]; 

>> figure, h_f = plot(f); 








>> 
>> seFlat = strel([1 1 1]) % 构造 平坦 (高 度 为 0) 的 结构 元 素 
seFlat = 


Flat STREL object containing 3 neighbors. 
Neighborhood: 
1 1 1 
>> fd1 = imdilate(f, seFlat); % 使 用 平坦 的 结构 元 素 灰 度 膨 胀 


>> hold on, h_fd1 = plot(fd1, '-ro"); 
>> axis([1 11 0 8]) 
>> 


>> seHeight = strel([1 1 1], [1 1 1]) % 注意 此 处 strel 的 用 法 ， 第 一 个 





参数 的 元 素 为 0 或 1， 表 示 结 





构 元 素 的 区 域 范围 〈 形 状 ) ， 第 二 个 参数 表示 结构 元 素 中 各 个 元 素 


的 高 度 


胀 


seHeight = 
Nonflat STREL object containing 3 neighbors. 
Neighborhood: 
1 1 1 
Height: 
1 1 1 
>> fd2 = imdilate(f, seHeight); % 使 用 具有 高 度 的 结构 元 素 的 灰 度 脱 


>> hold on, h_fd2 = plot(fd2, '-g*"); 
>> legend(' 原 灰 度 1 维 函 数 f', ' 使 用 平坦 结构 元 素 脱 上 胀 后 ", ' 使 用 高 度 为 


1 的 结构 元 素 膨胀 后 "); 


上 述 程 序 的 运行 结果 如 图 10.34 所 示 。 


一 一 一 原 灰 度 1 维 函 数 f 
全 一 使 用 平坦 结构 元 素 有 彤 胀 后 
使 用 高 度 为 1 的 结构 元 素 脱 胀 后 





A 图 10.34 灰 度 膨胀 
10.4.2 灰 度 腐蚀 及 其 实现 


理论 基础 
令 F 表 示 灰 度 图 像 ，S 为 结构 元 素 ， 使 用 对 F 进 行 腐蚀 ， 记 作 F 售 
s， 形 式 化 地 定义 为 


(FOS)(x, y) = min{F(x+x,y+y)—S(x',y")|(x',y'") ee Ds} (10-11) 





其 中 ，Ds 是 S 的 定义 域 ， 计 算 过 程 相当 于 让 结构 元 素 在 图 像 F 的 所 
有 位 置 上 滑 过 ， 而 在 此 过 程 中 要 保证 (x+x’，y+y’) 始 终 在 图 像 F 之 内 。 腐 
蚀 结果 F S'S 在 其 定义 域内 每 一 点 (x,y〉 处 的 取 值 为 以 (x，y) 为 中 
心 ， 在 S$ 规 定 的 局 部 邻 域 内 FE 与 $ 之 差 的 最 小 值 。 

与 二 值 形态 学 不 同 的 是 ，F(x, y) 和 S(x,y) 不 再 是 只 代表 形状 的 集 
合 ， 而 是 二 维 函 数 ， 它 们 的 定义 域 指 明了 其 形状 ， 它 们 的 值 指出 了 局 度 


i 
言 息 。 














一 


[ 例 10.9] 灰 度 腐蚀 。 

分 别 用 高 度 为 1 和 平坦 的 结构 元 素 实现 灰 度 腐蚀 ， 并 绘制 出 腐蚀 前 
后 的 函数 图 形 。 

相应 的 Matlab 代 码 如 下 。 

f=[01234543210]; 

>> figure, h_f = plot(f); 

>> seFlat = strel([1 1 1]) % 构造 平坦 (高 度 为 0) 的 结构 元 素 

seFlat = 

Flat STREL object containing 3 neighbors. 

Neighborhood: 

1 1 1 

>> fel = imerode(f, seFlat); % 使 用 平坦 结构 元 素 的 灰 度 腐蚀 

>> hold on, h_fel = plot(fel, '-ro'); 

>> axis([1 11 0 8]) 

>> 

>> seHeight = strel([1 1 1], [1 1 1]) % 注意 此 处 strel 的 用 法 ， 第 一 个 
参数 的 元 素 为 0 或 1， 表 示 结 

构 元 素 的 区 域 范 围 《〈 形 状 ) ， 第 二 个 参数 表示 结构 元 素 的 高 度 

seHeight = 








Nonflat STREL object containing 3 neighbors. 
Neighborhood: 
1 1 1 
Height: 
1 1 1 
>> fe2 = imerode(f, seHeight); % 使 用 具有 高 度 的 结构 元 素 的 灰 度 腐 


>> hold on, h_fe2 = plot(fe2, '-g*"); 


>> legend(' 原 灰 度 1 维 函 数 f', ' 使 用 平坦 结构 元 素 腐蚀 后 ', "使 用 高 度 为 
1 的 结构 元 素 腐 蚀 后 ); 
上 述 程序 的 运行 结果 如 图 10.35 所 示 。 
[ 例 10.10] 灰 度 膨 胀 和 灰 度 腐蚀 的 效果 比较 。 
采用 单位 高 度 的 3x3 结 构 元 素 对 图 像 lena.bmp 分 别 进行 灰 度 月 胀 和 
灰 度 腐蚀 的 Matlab 代 码 如 下 。 
>> I = imread(../lena.bmp ); 
>> seHeight = strel(ones(3, 3), ones(3, 3)) % 3*3 正 方形 单位 高 度 的 结 
构 元 尼 
seHeight = 
Nonflat STREL object containing 9 neighbors. 
Neighborhood: 
1 1 1 
1 1 1 


一 一 原 灰 度 1 维 函 数 f 
一 人 一 使 用 平坦 结构 元 素 腐蚀 后 
使 用 高 度 为 1 的 结构 元 素 腐蚀 后 





A 图 10.35 灰 度 腐蚀 


1 1 1 
Height: 

1 1 1 

1 1 1 

11 1 
>> Idil = imdilate(I, seHeight); 
>> Iero = imerode(L seHeigh?t); 
>> subplot(1, 3, 1), imshow(D) % 得 到 图 10.36 (a) 
subplot(1, 3, 2), imshow(Idil) % 得 到 图 10.36 (b) 
subplot(1, 3, 3), imshow(Iero) % 得 到 图 10.36 (Cc) 
上 述 程序 的 运行 结果 如 图 10.36 所 示 。 





(a) 原 图 lena.bmp (b) 图 (a) 经 过 灰 度 膨胀 (c) 图 (a) 经 过 灰 度 腐蚀 


A 图 10.36 灰 度 膨胀 与 灰 度 腐蚀 


我 们 看 到 在 结构 元 际 的 值 均 大 于 零 的 情况 下 ， 灰 度 膀 胀 的 输出 图 像 
总 体 上 比 输入 图 像 更 运 ， 这 是 局 部 最 大 值 运算 作用 的 结果 ， 此 外 原 图 像 
中 一 些 能 够 包含 于 结构 元 际 的 上 蜡 细 节 《〈 如 一 部 分 帽子 的 袜 氏 和 尾 穗 ) 被 
完全 消除 ， 其 余 的 大 部 分 暗部 细节 也 都 得 到 了 一 定 程度 上 的 减少 。 而 灰 
度 腐蚀 的 作用 正好 相反 ， 和 输出 图 像 比 输入 图 像 更 暗 ， 如 果 输 入 图 像 中 的 





























亮 部 细节 比 结构 元 素 小 ， 则 亮度 会 得 到 削弱 。 
10.4.3 灰 度 开 、 闭 运算 及 其 实现 


1. 理论 基础 

类 似 于 二 值 形 态 学 ， 可 以 在 灰 度 腐蚀 和 膨胀 的 基础 上 定义 灰 度 开 和 
闭 运 算 。 灰 度 开 运 算 就 是 先 灰 度 腐蚀 后 灰 度 膨胀 ， 而 灰 度 闭 运算 是 先 灰 
度 膨胀 后 灰 度 腐蚀 ， 下 面 分 别 给 出 定义 。 

e 灰 度 开 运算 

使 用 结构 元 素 s 对 图 像 { 灰 度 进 行 开 运算 ， 记 作 fo s， 可 表示 为 








fo = 仆人 Wi 提示 (10-12) 


e 灰 度 财运 算 
使 用 结构 元 素 s 对 图 像 { 进 行 灰 度 财运 算 ， 记 作 f*s， 可 表示 为 


太 ray = (丰田 9) Os 《102T3) 


假设 我 们 有 一 个 球形 的 结构 元 素 s， 开 运算 相当 于 推动 球 沿 着 曲面 
的 下 侧面 滚动 ， 使 得 球体 可 以 紧 贴 着 下 侧面 来 回 移 动 ， 直 到 移动 位 置 履 
盖 了 整个 下 侧面 。 此 时 球体 的 任何 部 分 能 够 达到 的 最 高 点 构成 了 开 运 算 
fes 的 曲面 ， 而 闭 运 算 则 相当 于 让 球体 紧 贴 在 曲面 的 上 表面 滚动 ， 此 时 
球体 任何 部 分 所 能 达到 的 最 低 点 即 构 成 了 闭 运 算 f*s 的 曲面 。 图 10.37 形 
象 地 说 明了 这 一 过 程 ， 图 10.37 〈a) 所 示 为 图 像 中 的 一 条 水 平 像素 线 ; 
图 10.37 (b) 和 图 10.37 〈d) 分 别 给 出 了 球 紧 贴 着 该 像素 线 的 下 侧 和 上 
侧 滚动 的 情况 ， 而 图 10.37 (c) 和 图 10.37 (Ce) 则 展示 了 滚动 过 程 中 球 
的 最 高 点 形成 的 曲线 ， 它 们 分 别 是 开 、 闭 运算 的 结果 。 











人 和信 八 NL~、 


(a) 图 像 中 的 一 条 水 平 扫描 灰 度 线 


(b)》 开 运算 时 球 紧 贴 曲 线 下 侧 滚 动 ; 


Re ax 


(c) 开 运 算 结果 


(d ) 闭 运算 时 球 紧 贴 曲线 上 侧 滚 动 


i 


(e ) 闭 运 算 结果 





A 图 10.37 灰 度 开 、 闭 运算 示意 图 


2. Matlab 实 现 

使 用 imopen 和 imdilate 同 样 可 以 对 灰 度 图 像 进行 开 、 闭 运算 ， 用 法 
与 灰 度 腐蚀 和 膨胀 类 似 ， 这 里 就 不 再 专门 介绍 了 。 

在 实际 应 用 中 ， 开 运算 常 香 用 于 去 除 那 些 相 对 于 结构 元 又 $ 而 言 较 
小 的 高 灰 度 区 域 ( 球 体 深 不 上 去 ) ， 而 对 于 较 大 的 亮 区 域 影响 不 大 〈 球 
体 可 以 滚 上 去 ) 。 虽 然 首 先进 行 的 灰 度 腐蚀 会 在 去 除 图 像 细 节 的 同时 使 














得 整体 灰 度 下 降 ， 但 随后 的 灰 度 膨胀 又 会 增强 图 像 的 整体 亮度 ， 因 此 图 
ee 基本 保持 不 变 ， 而 闭 运算 常用 于 去 除 图 像 中 的 上 暗 细 节 部 
， 而 相对 地 保留 高 灰 度 部 分 不 受 影响 ， 如 图 10.38 所 示 。 





(a) 开 运算 处 理 图 像 (b) 闭 运 算 处 理 图 像 


A 图 10.38 灰 度 开 、 闭 运算 





理论 基础 
作为 灰 度 形态 学 的 重要 应 用 之 一 ， 这 里 学 习 一 种 非 均匀 光照 问题 的 
解决 方案 一 一 顶 帽 变换 技术 (top-hat) 。 图 像 f 的 顶 帽 变换 h 定 义 为 图 像 f 
与 图 像 f 的 开 运 算 之 差 ， 可 表示 为 


h=f- (fo0s) (10-14) 





[ 例 10.11] 灰 度 形态 学 综合 应 用 一 一 顶 帆 变换。 

图 10.39 (a) 中 是 Matlab 中 目 带 的 米粒 图 像 rice.png， 相 对 高 灰 度 的 
米粒 分 散 于 整体 的 暗 背景 中 ， 注 意 到 图 像 上 中 部 分 的 背景 明显 要 比 下 部 
的 背景 区 域 亮 一 些 ， 这 正 是 由 成 像 时 不 均匀 的 光照 引起 的 。 我 们 希望 能 





够 通过 阔 值 化 把 物体 〈 米 粒 ) 与 背景 分 离开 来 ， 从 而 进一步 研究 物体 的 
性 质 ， 如 个 数 和 位 置 关 系 等 。 

然而 ， 在 图 像 整体 灰 度 不 均 的 情况 下 ， 直 接 对 图 10.39 〈a) 进行 的 
闹 值 化 将 难以 得 到 满意 的 效果 ， 图 10.39 (b) 中 给 出 了 用 自 适 应 最 优 赣 
值 法 进行 分 割 的 结果 ， 可 以 看 到 底部 的 一 些 米 粒 分 制 效果 较 拳 。 为 了 理 
解 起 来 更 加 直观 ， 在 图 10.39(c)》 中 给 出 了 图 像 f 的 三 维 可 视 化 效果 ,ff 
中 的 米粒 对 应 于 图 10.39(c》 图 中 一 个 个 “山峰 *"， 注 意 到 这 些 “ 峰 ”位 于 
一 个 “斜坡 * 上 ， 换 言 之， 它们 的 “地 基 ” 并 不 处 于 同一 高 度 ， 这 正 是 由 f 中 
不 均匀 的 背景 造成 的 。 

通过 运用 合适 的 结构 元 素 s 与 {进行 开 运 算 可 以 消除 这 些 峰 值 。f 中 的 
米粒 都 具有 近似 大 小 ， 因 此 只 要 选择 直径 比 米粒 的 短 轴 稍 大 的 圆 形 结构 
元 素 就 可 以 达到 目的 。 图 10.39 〈d) 给 出 了 采用 半径 为 15 的 圆 形 结构 元 
素 与 {进行 开 运 算 后 得 到 图 像 的 三 维 可 视 化 效果 。 想 象 你 水 平地 托 着 一 
个 圆 盘 从 图 10.39(c) 中 曲面 的 下 侧 走 过 ， 这 个 过 程 中 始终 让 圆 盘 项 着 
曲面 的 下 侧 ， 最 终 圆 盘 最 高 点 形成 的 曲面 就 是 图 10.39 〈d) 中 的 曲面 。 
由 于 圆 盘 比 米 粒 凸 起 的 “山峰 ?" 略 大 ， 这 实际 上 得 到 了 一 个 消除 了 峰值 的 
背景 曲面 。 显 然 ， 从 原 图 像 引 减 去 这 个 不 均匀 的 背景 就 得 到 了 亮度 比 
较 均匀 的 米粒 图 像 图 10.39 〈e) ， 其 三 维 可 视 化 效果 如 图 10.39 (f) 所 
示 ， 这 些 “ 山 峰 ” 已 经 基本 处 于 同一 高 度 。 图 10.39《〈g) 给 出 了 图 
10.39 〈e) 经 过 灰 度 拉 伸 的 效果 ; 图 10.39 (h) 是 对 图 10.39 (g) 中 的 图 
像 进 行 国 值 分 割 的 结果 ， 已 经 非常 理想 了 。 

相应 的 Matlab 代 码 如 下 。 

>> 工 = imread(Tice.png'); 

>> subplot(2, 4, 1), imshow(L []);% 得 到 图 10.39 (a) 

>> thresh = graythresh(1) % 自 适应 确定 阔 值 

thresh = 

0.5137 




















>> Ibw = im2bw(L thresh); 

>> subplot(2, 4, 2), imshow(Ibw, []);% 得 到 图 10.39 (b) 

>> subplot(2, 4, 3), surf(double(I(1:8:end,1:8:end))),zlim([0 
255]),colormap gray;9%6 显 示 

I 的 3 维 可 视 化 效果 ，c) 图 

>> 

>> bg = imopen(Lstrel(disk',15));9% 半 径 为 15 的 圆 形 结构 元 素 进 行 灰 
度 开 运算 提取 背景 曲面 

>> subplot(2, 4, 4), surf(double(bg(1:8:end,1:8:end))),zlim([0 255])， 
colormap gray; 

% 显 示 背 景 曲 面 的 三 维 可 视 化 效果 ， 图 10.39 (d) 

>> 

>> Itophat = imsubtract(], bg); % 顶 帽 变 换 

>> subplot(2, 4, 5), imshow(Itophat); % 得 到 图 10.39 (e) 

>> subplot(2, 4, 6), surf(double(Itophat(1:8:end,1:8:end))),zlim([0 
255]); % 显 示 顶 帽 变换 

图 像 的 三 维 可 视 化 效果 

>> I2 = imadjust(Itophat);% 对 比 度 拉 伸 

>> subplot(2, 4, 7), imshow(I2); % 得 到 图 10.39 (f) 





SS 
>> thresh2 = graythresh(I2) % 自 适应 确定 浆 值 
thresh2 = 

0.4843 


>> Ibw2 = im2bw(I2, thresh2); % 得 到 图 10.39 (g) 
>> subplot(2, 4, 8), imshow(Ibw2); % 得 到 图 10.39 (h) 
上 述 程序 的 运行 结果 如 图 10.39 所 示 。 





(b) 对 (a) 图 像 f 经 过 自 适应 阔 值 处 理 
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(c) 图 像 f 的 三 维 可 视 化 效果 Cd) 对 图 像 f 进 行 灰 度 开 运算 得 到 的 背景 区 而 





(g) 将 图 像 六 (f © s) 对 比 度 拉 伸 (h) 对 项 帽 变换 后 图 像 进行 二 值 化 


A 图 10.39 顶 帽 变换 处 理光 照 不 均 的 图 像 


10.5 小 结 


在 本 章 中 ， 我 们 介绍 了 形态 学 的 基本 概念 并 学 习 了 多 种 种 见 的 形态 
学 算法 及 其 典型 应 用 。 合 理 运用 这 些 技术 能 够 帮助 我 们 从 图 像 中 提取 感 
兴趣 的 特征 ， 这 常 第 和 下 一 半 中 将 要 介绍 的 图 像 分 割 技术 结合 在 一 起 ， 
为 最 终 得 到 能 够 直接 用 于 图 像 识 别 的 数值 或 癌 量 特征 铺 平 了 道路 。 事 实 
上 ， 在 下 一 章 中 还 会 友 现 一 些 基于 形态 学 的 分 割 方法 ， 如 著名 的 分 水 岭 








算法 。 


图 像 分 割 是 指 将 图 像 中 具有 特殊 意义 的 不 同 区 域 划 分 开 来 ， 这 些 区 
域 是 互 不 相交 的 ， 每 个 区 域 满足 灰 度 、 纹 理 、 彩 色 等 特征 的 某 种 相似 性 
准则 。 图 像 分 割 是 图 像 的 分 析 过 程 中 最 重要 的 步骤 之 一 ， 分 割 出 的 区 域 
可 以 作为 后 续 特 征 提取 的 目标 对 象 。 

本 章 的 知识 和 技术 热点 

e 其 于 梯度 的 Sobel、Prewitt 和 Roberts 算 子 的 边缘 检测 

e LoG 边 毕 检 测算 法 

e Canny 边 缘 检 测算 法 

e Hough 变 换 和 直线 检测 

e 闵 值 分 割 技术 

e 基于 区 域 的 图 像 分 割 技术 

本 章 的 典型 案例 

e 基于 LoG 和 Canny 算 子 的 精确 边缘 检测 

e 基于 Hough 变 换 的 直线 检测 

e 图 像 的 四 又 树 分 解 

e 其 于 形态 学 分 水 岭 算 法 的 图 像 分 割 





11.1 分 割 概述 











图 像 分 割 的 方法 和 种 类 有 很 多 ， 有 些 分 割 算法 可 以 直接 运用 于 大 多 
数 图 像 ， 而 男 一 些 则 只 适用 于 特殊 类 别 的 图 人像， 要 视 具 体 情 况 来 决定 。 
一 般 采 用 的 方法 有 边缘 检测 (edge detection) 、 边 界 跟 踪 (edge 
tracing) 、 区 域 生长 (region growing) 、 区 域 分 离 和 聚合 等 。 

图 像 分 割 算法 一 般 基 于 图 像 灰 度 值 的 不 连续 性 或 其 相似 性 。 不 连续 











性 是 基于 图 像 灰 度 的 不 连续 变化 分 割 图 像 ， 例 如 图 像 的 边缘 ， 有 边缘 检 
测 、 边 界 跟 踊 等 算法 ， 相 似 性 是 依据 事先 制定 的 准则 将 图 像 分 割 为 相似 
的 区 域 ， 如 病 值 分 制 、 区 域 生长 等 ， 如 图 11.1 所 示 。 


边缘 检测 
图 像 的 不 连续 性 边界 跟踪 
Hough 变换 
图 像 分 割 


区 域 生 长 
图 像 的 相似 性 区 域 分 型 与 合并 


阅 值 分 制 


A 图 11.1 图 像 分 割 的 分 类 





图 像 分 割 在 实际 的 科学 研究 和 工程 技术 领域 有 着 广泛 的 应 用 。 在 工 
业 上 ， 应 用 于 矿藏 分 析 、 无 接触 式 检测 、 产 品 的 精度 和 纯度 分 析 等 ， 生 
物 医学 上 ， 应 用 于 计算 机 断层 图 像 CT、X 光 透视 、 核 磁 共 振 、 病 毒 细 胞 
的 自动 检测 和 识别 等 ， 交通 上 ， 应 用 于 车 辆 检测 、 车 种 识别 、 车 辆 跟踪 
等 ， 另 外 ， 在 机 器 人 视觉 、 神 经 网 络 、 吴 份 鉴定 、 图 像 传输 等 各 个 领域 
都 有 着 广泛 的 应 用 。 


11.2 边缘 检测 
图 像 的 边缘 是 图 像 的 最 基本 特征 ， 边 缘 点 是 指 图 像 中 周围 像素 灰 度 


有 阶 跃 变化 或 屋顶 变化 的 那些 像素 点 ， 即 灰 度 值 导数 较 大 或 极 大 的 地 
方 。 图 像 属 性 中 的 显著 变化 通常 反映 了 属性 的 重要 意义 和 特征 。 

边缘 检测 是 图 像 处 理 和 计算 机 视觉 中 的 基本 问题 ， 边 缘 检 测 的 目的 
征 标 识 数字 图 像 中 腕 度 变 化 明显 的 点 。 我 们 曾 在 5.5 节 中 讨论 了 一 些 可 
以 用 于 增强 边缘 的 图 像 锐 化 方法 ， 本 蔬 介 绍 如 何 将 它们 用 于 边缘 检测 ; 
此 外 ， 还 将 学 习 一 种 专门 用 于 边缘 检测 的 Canny 算 子 。 





11.2.1 边缘 检测 概述 


边缘 检 训 可 以 大 幅度 地 减少 数据 量 ， 并 且 剔 除了 那些 被 认为 不 相关 
的 信息 ， 保 留 了 图 像 重要 的 结构 属性 。 

1. 边缘 检测 的 基本 步 又 

边缘 检测 的 步 又 如 图 11.2 所 示 。 





锐 化 滤波 





边缘 连接 
原始 图 像 边缘 图 像 - 值 图 像 


A 图 11.2 边缘 检测 


(1) 平滑 滤波 : 由 于 梯度 计算 易 受 噪声 影响 ， 因 此 第 一 步 是 用 涯 
波 去 除 噪 声 。 但 是 ， 降 低 噪声 的 平滑 能 力 越 强 ， 边 界 强 度 的 损失 越 大 。 

(2) 锐 化 滤波 : 为 了 检测 边界 ， 必 须 确定 傈 后 邻 域 中 灰 肛 的 变 
化 。 锐 化 操作 加 强 了 存在 有 意义 的 灰 度 局 部 变化 位 置 的 像素 点 。 

(3) 边缘 判定 : 在 图 像 中 存在 许多 梯度 不 为 零 的 点 ， 但 是 对 于 特 
定 应 用 ， 不 是 所 有 点 都 有 意义 。 这 就 要 求 我 们 根据 具体 情况 选择 和 去 除 
处 理 点 ， 有 具体 的 方法 包括 二 值 化 处 理 和 过 零 检 测 等 。 

(4) 边缘 连接 : 将 间断 的 边缘 连接 成 为 有 意义 的 完整 边缘 ， 同 时 
去 处 假 边 缘 。 主 要 方法 是 Hough 变 换 。 

2. 边缘 检测 方法 的 分 类 

通 第 可 将 边缘 检 测 的 算法 分 为 2 类 : 基于 碍 找 的 算法 和 基于 零 罕 越 











的 算法 。 除 此 之 外 ， 还 有 Canny 边 缘 检 测算 法 、 统 计 判 别 方法 等 。 

e 基于 得 找 的 方法 通过 寻找 图 像 一 阶 导 数 中 的 最 大 和 最 小 值 来 检 剖 
边界 ， 通 和 是 将 边界 定位 在 梯度 最 大 的 方向 ， 是 基于 一 阶 导 数 的 边缘 检 
测算 法 。 

e 基于 零 罕 越 的 方法 通过 寻找 图 像 二 阶 导 数 零 穿 越 来 寻找 边界 ， 通 
常 是 拉 普 拉 斯 过 零点 或 者 非 线 性 兰 分 表示 的 过 零点 ， 是 基于 二 阶 导数 的 
边缘 检测 算法 。 

基于 一 阶 导数 的 边缘 检测 算 子 包括 Roberts 算 子 、Sobel 算 子 、 
Prewitt 算 子 等 ， 它 们 都 是 梯度 算 子 ， 基 于 二 阶 导 数 的 边缘 检测 算 子 主要 
古 遍 斯- 拉 普 拉 斯 边缘 检测 算 子 。 我 们 将 在 11.2.2 小 节 对 它们 进行 中 介 




















1. 梯度 算 子 
儿 个 最 常用 梯度 算 子 的 模板 如 图 11.3 所 示 。 


二 只 圭 


(a) Roberts 模板 


= i = 3 有司 
0 0 0 si 
i。 江 名 和 


(b) 水 平 〈 左 ) 和 竖 直 《〈 右 ) 的 Sobel 模板 


= -1 -l -1 0 1 
0 0 0 -1] 0 1 
] 中 -] 0 1 


(c) 水 平 〈 左 ) 和 竖 让 〈 右 ) 的 Prewitt 模板 


A 图 11.3 梯度 算 子 模板 











Roberts 算 子 利用 局 部 差分 算 子 寻找 边缘 ， 边 缘 定 位 精度 较 高 ， 但 
容易 寺 失 一 部 分 边缘 ， 同 时 由 于 图 像 没 经 过 平滑 处 理 ， 因 此 不 有 具备 抑制 
噪声 的 能 力 。 该 算 子 对 具有 陡峭 边缘 且 含 噪声 少 的 图 像 效 果 较 好 。 

Sobel 算 子 和 Prewitt 算 子 都 考虑 了 邻 域 信 息 ， 相 当 于 对 网 像 先 做 加 权 
平滑 处 理 ， 然 后 再 做 微分 运算 ， 上 所 不 同 的 是 平滑 部 分 的 权 值 有 些 差 异 ， 
因此 对 噪声 具有 一 定 的 抑制 能 力 ， 但 不 能 完全 排除 检测 结果 中 出 现 的 虚 
假 边缘 。 虽 然 这 两 个 算 子 边缘 定位 效果 不 错 ， 但 检测 出 的 边缘 容易 出 现 
多 像素 宽度 。 

2. 高 斯 - 拉 普 拉 斯 算 子 

在 5.5.3 小 节 已 经 介绍 了 拉 普 拉 斯 算 子 ， 但 是 由 于 它 是 一 个 二 阶 导 
数 ， 对 噪声 具有 无 法 接受 的 敏感 性 ， 而 且 其 幅 值 会 产生 双边 缘 ， 另 外 ， 
边缘 方向 的 不 可 检测 也 是 拉 普 拉 斯 算 子 的 缺点 之 一 ， 因 此 ， 一 般 不 以 其 
原始 形式 作用 于 边缘 检测 。 

为 了 弥补 拉 普 拉 斯 算 子 与 生 俱 来 的 缺陷 ， 美 国学 者 Marr 提 出 了 一 种 
算法 ， 在 运用 拉 普 拉 斯 算 子 之 前 一 般 先 进行 高 斯 低 通 滤波 ， 可 表示 为 















































V-[GCx y)* f(x, y)] CA 
其 中 f(x, y) 为 图 像 ，G(x, y) 为 高 斯 函数 ， 表 示 为 


i (11-2) 
如 pp 


G(x,y) = 
270 








其 中 a 是 标准 关 。 用 高 斯 函数 卷 积 模糊 一 幅 图 像 ， 图 像 模糊 的 程度 
古 由 o 决 定 的 。 
由 于 在 线性 系统 中 卷 积 与 微分 的 次 序 可 以 交换 ， 由 式 《〈11-1) 得 


V’*[G(x, y)* f(x,y)] =V*G(x, y)* f (x, y) (11-3) 





式 〈11-3) 说 明了 可 以 移 对 高 斯 算 子 进行 微分 运算 ， 然 后 再 与 图 像 
f(x, 妨 卷 积 ， 其 效果 等 价 于 在 运用 拉 普 拉 斯 算 子 之 前 首先 进行 高 斯 低 通 


计算 式 〈11-2) 的 二 阶 偏 导 为 
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式 〈11-6) 称 为 高 斯 - 拉 普 拉 斯 算 子 (Laplacian of a Gaussian) ， 简 
称 LoG 算 子 ， 也 称 为 Marr 边 缘 检 测算 子 。 

应 用 LoG 算 子 时 ， 高 斯 函数 中 标准 差 参 数 a 的 选择 很 关键 ， 对 图 像 
边缘 检测 效果 有 很 大 的 影响 ， 对 于 不 同 图 像 应 选择 不 同 参 数 。 

LoG 算 子 克 服 了 拉 普 拉 斯 算 子 抗 噪声 能 力 比 较 差 的 缺点 ， 但 是 在 抑 
制 噪声 的 同时 也 可 能 将 原 有 的 比较 尖锐 的 边缘 也 平滑 掉 了 ， 造 成 这 些 尖 
锐 边缘 无 法 检 被 测 到 。 

常用 的 LoG 算 子 是 5x5 的 模板 ， 如 图 11.4 所 示 。 





A 图 11.4 LoG 算 子 





在 5.5 节 曾 指 出 拉 普 拉 斯 算 子 的 啊 应 会 产生 双边 缘 ， 这 是 复杂 分 割 
中 所 不 希望 的 结果 ， 解 决 的 方法 是 利用 它 对 阶 跃 性 边缘 的 零 交 文 性 质 来 
定位 边缘 (参见 5.5.4 小 节 ) 。 

3. Canny 边 缘 检 测算 子 

前 面 介绍 的 几 种 都 是 基于 微分 方法 的 边缘 检测 算法 ， 它 们 都 只 有 在 
图 像 不 含 噪 声 或 者 首先 通过 平滑 去 除 品 声 的 前 提 下 才能 正常 应 用 。 

在 图 像 边缘 检测 中 ， 抑 制 噪声 和 边缘 精确 定位 是 无 法 同时 满足 的 ， 
一 些 边缘 检测 算法 通过 平滑 滤波 去 除 噪 声 的 同时 ， 也 增加 了 边缘 定位 的 
不 确定 性 ;而 提高 边缘 检测 算 子 对 边缘 的 敏感 性 的 同时 ， 也 提高 了 对 噪 
声 的 敏感 性 。Canny 算 子 力 图 在 抗 噪声 干扰 和 精确 定位 之 间 寻 求 最 佳 折 
衷 方案 。 

Canny 对 边缘 检测 质量 进行 分 析 ， 提 出 3 个 准则 。 

(1) 信 噪 比 准 则 : 对 边缘 的 错误 检测 率 要 尽 可 能 低 ， 尽 可 能 检测 
出 图 像 的 真实 边缘 ， 且 尽 可 能 减少 检测 出 虚假 边缘 ， 获 得 一 个 好 的 续 
果 。 在 数学 上 ， 惑 是 使 信 噪 比 SNR 尽 量 大 。 输 出 信 噪 比 越 大 ， 错 误 率 越 


小 。 











| 其 G(—x)f (x)dx 


] 


no hie J Codr| 





SNR = (11-7) 


式 中 : f(xo) 是 边界 为 [-@，ow] 有 限 滤波 器 的 脉冲 啊 应 ，G(CO 代 表 边 
缘 ; no 是 高 斯 噪声 的 均 方 根 。 

(2) 定位 精度 准则 : 检测 出 的 边缘 要 尽 可 能 接近 真实 边缘 。 数 学 
上 束 是 寻求 滤波 函数 f(x) 使 式 (11-8) 中 的 Loc 尽 量 大 。 





ocr 
Loc = (11-8) 


no lm cdr| 


式 中 : G'(-x)、f 了 f(x) 分 别 是 G(-x)、f(x) 的 一 阶 导 数 。 
(3) 单 边 缘 啊 应 准则 : 对 同一 边缘 要 有 低 的 啊 应 次 数 ， 即 对 单 边 
缘 最 好 只 有 一 个 啊 应 。 滤 波 占 对 边缘 啊 应 的 极 大 值 之 间 的 平均 距离 为 
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| fdr 
dmax = 2 2- 一 一 一 一 
| 了 “CO 


因此 在 2W 宽 度 内 ， 极 大 值 的 数目 为 


~ kW (11-9) 





2 
六 (11-10) 
W k 


显然 ， 只 要 固定 了 k， 束 固定 了 极 大 值 的 个 数 。 

有 了 这 3 个 准则 ， 和 寻找 最 优 的 滤波 器 的 问题 就 转化 为 泛 函 的 约束 优 
化 问题 了 ， 问 题 的 解 可 以 由 高 斯 的 一 阶 导 数 去 逼近 。 

Canny 边 缘 检测 的 基本 思想 就 是 首先 对 网 像 选 择 一 定 的 Gauss 滤 波 器 
进行 平滑 滤波 ， 然 后 采用 非 极 值 抑制 技术 进行 处 理 得 到 最 后 的 边缘 图 
像 。 其 步骤 如 下 。 


(1) 用 高 斯 滤波 器 平 请 图 像 。 
这 里 ， 利 用 一 个 省 略 系数 的 高 斯 冰 数 HGCx, y) 





ee Re (11-11) 
2 
G(x,y) = f(x, 7)*#H(x, y) (11-12) 


其 中 f(x, y) 古 图 像 数 据 。 
(2) 用 一 阶 偏 导 的 有 限 差分 来 计算 梯度 的 幅 值 和 方向 。 
利用 一 阶 差分 卷 积 模板 : 




















一 ] 一 ] ] 一 ] 
Hi= H; = 

1 1] ed 
Oi(X,y)= f(x,y)* Hi(x,y) p(X,y) = f(x,y)* Ha(x,y) 
得 到 
幅 值 

p(x,y) = VO (x,y) + 9 (x,y) (11-13) 

方 辐 
多 = 多 全 区 (11-14) 


Oi(X,y) 


(3) 对 梯度 幅 值 进 行 非 极 大 值 抑制 。 

仅仅 得 到 全 局 的 梯度 并 不 足以 确定 边缘 ， 为 确定 边缘 ， 必 须 保留 局 
部 标 度 最 大 的 点 ， 而 抑制 非 极 大 值 ， 即 将 非 局 部 极 大 值 点 置 零 以 得 到 细 
化 的 边缘 。 





A 图 11.5 非 极 大 值 抑制 


如 图 11.5 押 示 ，4 个 而 区 的 标号 为 0 到 3， 对 应 3x3 邻 域 的 4 种 可 能 组 


人 
口 o 





在 每 一 点 上 ， 邻 域 的 中 心 像素 M 与 治 着 梯度 线 的 两 个 像素 相 比 。 如 
果 M 的 梯度 值 不 比 沿 梯 度 线 的 两 个 相 邻 像素 梯度 值 大 ， 则 令 M=0。 

(4) 用 双 国 值 算法 检测 和 连接 边缘 。 

使 用 两 个 装 值 和 tb(n<tz)， 从 而 可 以 得 到 两 个 闭 值 边缘 图 像 ni[ j] 
和 ny[i, j]。 由 于 nyli, j 使 用 高 国 值 得 到 ， 因 而 含有 很 少 的 假 边 缘 ， 但 有 间 
断 不 闭合 ) 。 双 病 值 法 要 在 nli,j] 中 把 边缘 连接 成 轮廓 ， 当 a 到达 轮 亡 
的 端点 时 ， 该 算法 就 在 mli,j] 的 8 邻 点 位置 寻 找 可 以 连接 到 轮 廊 上 的 边 
缘 ， 这 样 ， 算 法 不 断 地 在 ni 上 订 中 收集 边缘 ， 直 到 将 ny[i, 连接 起 来 为 
止 。tb 用 来 找到 每 条 线段 ，b 用 来 在 这 些 线段 的 两 个 方向 上 延伸 寻找 边 
缘 的 断裂 处 ， 并 连接 这 些 边 缘 。 





11.2.3 Matlab 实 现 


Matlab 的 IPT 函数 edge 可 以 方便 地 实现 11.2.2 小 节 的 几 种 边缘 检测 方 
法 ， 该 函数 的 作用 是 检测 灰 度 图 像 中 的 边缘 ， 并 返回 一 个 市 有 边缘 信息 
的 二 值 图 像 ， 其 中 黑色 表示 背景 ， 和 白色 表示 原 图 像 中 的 边缘 部 分 。 

1. 基于 梯度 算 子 的 边缘 检测 

使 用 edge 函 数 进 行 基 于 梯度 算 子 的 边缘 检测 的 调用 语法 为 

BW = edge(Ltype,thresh,direction,nothinning) 

参数 说 明 

e I 是 需要 检测 边缘 的 输入 图 像 。 





e type 表 示 梯 度 算 子 的 种 类 ， 合 法 取 值 如 表 11.1 所 示 。 
表 11.1 


合法 取 值 





'sobel' sobel 算 子 





'Prewitt prewitt 算 子 





'roberts' 





robert 算 子 


e thresh 是 敏感 度 国 值 参数 ， 任 何 灰 度 值 低 于 此 国 值 的 边缘 将 不 会 
被 检测 到 。 其 默认 值 是 空 矩 阵 []， 此 时 算法 会 自动 计算 阔 值 。 

e direction 指 定 了 我 们 感 兴 趣 的 边缘 方向 ，edge 函 数 将 只 检测 
direction 中 指定 方 同 的 边缘 。 其 合法 取 值 如 表 11.2 所 示 。 











表 11.2 
合法 取 值 边缘 方向 
‘horizontal' 水 平方 向 
wertical' | 竖 直 方向 
"both' 所 有 方向 


可 选 参数 ”nothinning'， 指 定时 可 以 通过 跳 过 边缘 细 化 算法 来 加 快 
ee 的 速度 。 在 默认 时 候 ， 这 个 参数 是 'thinning'"， 即 进行 边缘 细 
化 。 


返回 值 
e BW 为 返回 的 二 值 图 像 ， 其 中 0 (黑色 ) 为 背景 ，1 (白色 ) 为 边 
缘 部 分 。 





2. 基于 高 斯 - 拉 普 拉 斯 算 子 的 边缘 检测 
使 用 edge 函 数 进 行 基于 高 斯 - 拉 普 拉 斯 算 子 的 边缘 检测 的 调用 语法 





为 
BW = edgel(l,'log,',thresh,sigma) 


参数 说 明 

e I 是 待 处 理 的 图 像 。 

e 第 2 个 参数 为 log' 表 示 采 用 高 斯 - 拉 普 拉 斯 算 子 。 

e thresh 是 敏感 度 国 值 参数 ， 任 何 灰 度 值 低 于 此 国 值 的 边缘 将 不 会 
被 检测 到 。 其 默认 值 是 空 矩 阵 []， 此 时 算法 会 自动 计算 闵 值 。 如 果 将 
thresh 设 为 0， 则 输出 的 边缘 图 像 将 包含 围绕 所 有 物体 的 闭合 的 轮廓 线 ， 
因为 这 样 的 运算 会 包括 输入 图 像 中 所 有 的 过 零点 。 

e sigma 指 定 生 成 高 斯 滤波 器 所 使 用 的 标准 差 。 上 默认 时 ， 标 准 差 值 
为 2。 滤 镜 大 小 nxn，n 的 计算 方法 为 n=ceil(sigma*3)*2+1。 

返回 值 

e BW 为 返回 的 二 值 图 像 ， 其 中 0 (黑色 ) 为 背景 ，1 (白色 ) 为 边 
缘 部 分 。 

3. 基于 Canny 算 子 的 边缘 检测 

BW = edge(I,canny',thresh,sigmal) 

参数 说 明 

e I 是 待 处 理 的 图 像 。 

e 第 2 个 参数 为 'canny' 表 示 采 用 canny 算 子 。 

e thresh 是 敏感 度 国 值 参 数 ， 其 默认 值 是 空 矩 阵 []。 与 前 面 的 算法 
不 同 ，Canny 算法 的 敏感 度 国 值 是 一 个 列 向 量 ， 因 为 需要 为 算法 指定 阔 
值 的 上 下 限 。 在 指定 阀 值 矩阵 时 ， 第 1 个 元 素 是 国 值 下 限 ， 第 2 个 元 素 为 
闹 值 上 限 。 如 果 只 指定 一 个 阐 值 元 系 ， 则 这 个 直接 指定 的 值 会 被 作为 病 
值 上 限 ， 而 它 与 0.4 的 积 会 被 作为 国 值 下 限 。 如 采 国 值 参数 没有 指定 ， 
算法 会 自行 确定 敏感 度 国 值 的 上 、 下 限 。 

e sigma 指 定 生 成 平滑 使 用 的 高 斯 滤波 器 的 标准 差 。 默 认 时 ， 标 准 
莽 值 为 1。 滤 镜 大 小 nxn，n 的 计算 方法 为 n=ceil(sigma*3)*2+1。 

返回 值 

e BW 为 返回 的 二 值 图 像 ， 其 中 0 (黑色 ) 为 背景 ，1 (白色 ) 为 边 





























缘 部 分 。 
[ 例 11.1] 对 同一 幅 图 像 分 别 使 用 上 述 6 种 边缘 检测 算法 进行 处 理 ， 使 
用 算法 的 默认 参数 。 将 输出 结果 显示 在 同一 窗口 中 以 便 进行 比较 。 
相应 的 Matlab 实 现代 码 如 下 。 
intensity = imread('circuit.tif”); % 读 入 源 图 像 


bw1 = edge(intensity, 'sobel'); 





bw2 = edgel(intensity, 'prewitt'); 

bw3 = edgel(intensity, 'roberts'); 

bw4 = edge(intensity，]log); 

bw5 = edgel(intensity, 'canny'); 

subplot(3,2,1); imshow(intensity); title('a"); % 图 11.6 (a) 
subplot(3,2,2); imshow(bw1); title(b); % 图 11.6 (b) 
subplot(3,2,3); imshow(bw2); title('c"); % 图 11.6 (c) 
subplot(3,2,4); imshow(bw3); title('d"); % 图 11.6 (d) 
subplot(3,2,5); imshow(bw4); title('e"); % 图 11.6 (e) 
subplot(3,2,6); imshow(bw5); title(f"); % 图 11.6 (f) 
上 述 程 序 的 运行 结果 如 图 11.6 所 示 。 





(b) Sobel 边缘 检测 (c) Prewitt 边缘 检测 











(f) Canny 边缘 检测 


A 图 11.6 几 种 算法 的 结果 比较 


从 图 11.6 中 可 以 看 出 ， 不 同 算法 得 到 的 结果 存在 很 大 差异 ， 下 面 进 
行 简 要 的 分 析 。 

e 从 边缘 定位 的 精度 看 

Roberts 算 子 和 Log 算 子 定位 精度 较 高 。 

Roberts 算 子 简 单 直观 ，Log 算 子 则 利用 二 阶 导数 雯 交叉 特性 检测 边 
缘 。 但 Log 算 子 只 能 获得 边缘 位 置信 息 ， 不 能 得 到 边缘 的 方 癌 等 信息 。 

e 从 对 不 同方 癌 边 缘 的 啊 应 看 

从 对 边缘 方向 的 敏感 性 而 言 ，Sobel 算 子 、Prewitt 算 子 检测 斜 癌 阶 
跃 边缘 效果 较 好 ，Roberts 算 子 检 测 水 平和 垂直 边缘 效果 较 好 。Log 算 子 
则 不 具备 边缘 方向 检测 能 

Sobel 算 子 可 以 提供 最 精确 的 边缘 方向 估计 。 





e 从 去 噪 能 力 看 

Roberts 和 Log 算 子 定 位 精度 虽然 较 遍 ， 但 受 噪 声 影响 大 。 

Sobel 算 子 和 Prewitt 算 子 模板 相对 较 大 因而 去 噪 能 力 较 强 ， 具 有 平 请 
作用 ， 能 滤 除 一 些 噪声 ， 去 抒 部 分 伪 边 缘 ， 但 同时 也 平滑 了 真正 的 边 
缘 ， 这 也 正 是 其 定位 精度 不 高 的 原因 。 

从 总 体 效 果 来 衡量 ，Canny 算 于 给 出 了 一 种 边缘 定位 精确 性 和 抗 品 
声 干扰 性 的 较 好 折 中 。 

注意 

以 上 验证 结果 及 分 析 是 基于 阶 跃 变 化 假设 进行 的 。 但 真实 的 灰 度 变 
化 不 一 定 都 是 阶 跃 的 ， 有 可 能 发 生 在 很 宽 的 灰 度 范围 上 ， 且 存在 灰 度 的 
起 落 。 因 此 ， 我 们 应 当 根 据 工 程 实际 对 各 种 算 子 作 以 比较 后 加 以 选用 。 











11.3 霍 夫 变换 


11.2 市 介绍 了 一 些 边缘 检测 的 有 效 方法 。 但 实际 中 由 于 噪声 和 光照 
不 均等 因素 ， 使 得 在 很 多 情况 下 所 获得 的 边缘 点 是 不 连续 的 ， 必 须 通过 
边缘 连接 将 它们 转换 为 有 意义 的 边缘 。 一 般 的 做 法 是 对 经 过 边缘 检测 的 
图 像 进 一 步 使 用 连接 技术 ， 从 而 将 边缘 像素 组 合成 完整 的 边缘 。 

霍 夫 〈Hough) 变换 是 一 个 非常 重要 的 检测 间断 点 边界 形状 的 方 
法 。 它 通过 将 图 像 坐标 空间 变换 到 参数 空间 ， 来 实现 直线 和 曲线 的 拟 
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11.3.1 直线 检测 


1. 直角 坐标 参数 空间 
在 图 像 x-y 坐 标 空间 中 ， 经 过 点 (xi, yi) 的 直线 表示 为 


yi =axi+b (11-1$) 


式 中 : 参数 a 为 竹 率 ; b 为 截 距 。 

通过 点 (x;, yi) 的 直线 有 无 数 条 ， 且 对 应 于 不 同 的 a 和 Pb 值 ， 它 们 都 满 
足 式 (11-15) 。 

如 果 将 x; 和 y; 视 为 常数 ， 而 将 原本 得 参数 a 和 b 看 作 变 量 ， 将 式 (11- 
15) 表示 为 


b=-xiaty (11-16) 


忠 变 换 到 了 参数 平面 a-b。 这 个 变换 束 是 直角 坐标 中 对 于 (%i, yj 点 的 
Hough 变 换 。 该 直线 是 图 像 坐标 空间 中 的 点 (xi, yi) 在 参数 空间 的 唯一 方 
程 。 考 虑 图 像 坐标 空间 中 的 男 一 点 (xj, yj)， 它 在 参数 空间 中 也 有 相应 的 
一 条 直线 。 


b=—xjat+y; (11-17) 


条 直线 与 点 (x;, yj) 在 参数 空间 的 直线 相交 于 一 点 (Ao,bo)。 如 图 
11. 

图 像 坐 标 空 间 中 过 点 (xi, yi) 和 点 (x;, 中) 的 直线 上 的 每 一 点 在 参数 空间 
a-b 上 各 自 对 应 一 条 直线 ， 这 些 直 线 都 相交 于 点 (Ao,bo)， 而 Ao、bo 束 是 
图 像 坐标 空间 x-y 中 点 (%;, yi) 和 点 (x;, yj) 所 确定 的 直线 的 参数 。 反 之 ， 在 
参数 空间 相交 于 同一 点 的 所 有 直线 ， 在 图 像 坐 标 空间 都 有 共 线 的 点 与 之 
对 应 。 根 据 这 个 特性 ， 给 定 图 像 坐 标 空间 的 一 些 边缘 点 ， 就 可 以 通过 
Hough 变 换 确定 连接 这 些 点 的 直线 方程 。 








(a) 图 像 坐 标 空间 (b) 参数 空间 


A 图 11.7 直角 坐标 中 的 Hough 变 换 


具体 计算 时 ， 可 将 参数 空间 视 为 离散 的 。 建 立 一 个 二 维 累 加 数组 
Ala,b)， 第 一 维 的 范围 是 图 像 坐标 空间 中 直线 斜率 的 可 能 范围 ， 第 二 维 
的 范围 是 图 像 坐标 空间 中 直线 截 距 的 可 能 范围 。 开 始 时 Ala, b) 初 始 化 为 
0， 然 后 对 图 像 坐 标 空 间 的 每 一 个 前 景点 (xi,yi) ， 将 参数 空间 中 每 一 个 
a 的 离散 值 代 入 式 〈11-16) ， 从 而 计算 出 对 应 的 b 值 。 每 计算 出 一 对 
Cab) ， 都 将 对 应 的 数组 元 素 A(a,b) 加 1， 即 A(a, b)=A(a, b)+1。 所 有 的 
计算 都 结束 后 ， 在 参数 空间 表决 结果 中 找到 A(a, b) 的 最 大 峰值 ， 所 对 应 
的 Ao、bo 束 是 原 图 像 中 共 线 点 数目 最 多 〈( 共 A(Ao,bo) 个 共 线 点 ) 的 直线 
方程 的 参数 ， 接 下 来 可 以 继续 寻找 次 峰值 和 第 3 第 4 峰值 等 ， 它 们 对 应 于 
原 图 中 共 线 点 数目 略 少 一 些 的 直线 。 

注意 

由 于 原 图 中 的 直线 往往 具有 一 定 宽度 ， 实 际 上 相当 于 多 条 参数 极其 
接近 的 单 像 素 宽 直 线 ， 往 往 对 应 于 参数 空间 中 相 邻 的 多 个 累加 器 单元 。 
因此 每 找到 一 个 当前 最 大 的 峰值 点 后 ， 需 要 将 该 点 及 其 附近 点 清 零 ， 以 
防 算法 检测 出 多 条 极其 邻近 的 “ 假 ? 直 线 。 

对 于 网 11.7〈a) 的 Hough 变 换 参数 空间 情况 如 图 11.8 所 示 。 






























po 


CE | 
0 


和 图 11.8 参数 空间 表决 结果 


这 种 利用 二 维系 加 器 的 离散 化 方法 大 大 简化 了 Hough 变 换 的 计算 ， 
参数 空间 ab 上 的 细 分 程度 决定 了 最 终 找 到 直线 上 点 的 共 线 精度 。 上 述 
的 二 维 累 加 数组 A 组 也 常 第 被 称 为 Hough 算 阵 。 

注意 

使 用 直角 坐标 表示 直线 ， 当 直线 为 一 条 垂直 直线 或 者 接近 垂直 直线 
时 ， 该 直线 的 斜率 为 无 限 大 或 者 接近 无 限 大 ， 从 而 无 法 在 参数 空间 a-b 
中 表示 出 来 。 为 了 解决 这 一 问题 ， 可 以 采用 极 坐标 系 。 

2， 极 坐标 参数 空间 

极 坐标 中 用 如 下 参数 方程 表示 一 条 直线 。 











D=xcosO+ySsinO Cll=18) 


式 中 : p 代 表 直 线 到 原点 的 年 直 距 离 ;， 6 代表 x 轴 到 直线 午 线 的 角 


度 ， 取 值 范围 为 +90*， 如 图 11.9 所 示 。 





A 图 11.9 直线 的 参数 式 表 示 


与 直角 坐标 类 似 ， 极 坐标 中 的 Hough 变 换 也 将 图 像 坐 标 空 间 中 的 点 
变换 到 参数 空间 中 。 在 极 坐标 表示 下 ， 图 像 坐标 空间 中 共 线 的 点 变换 到 
参数 空间 中 后 ， 在 参数 空间 都 相交 于 同一 点 ， 此 时 所 得 到 的 p、6 即 为 
所 求 的 直线 的 极 坐 标 参数 。 与 直角 坐标 不 同 的 是 ， 用 极 坐标 表示 时 ， 图 
像 坐标 空间 的 共 线 的 两 点 (xi, yj) 和 (%, 了) 映射 到 参数 空间 是 两 条 正 弱 曲 
线 ， 相 交 于 点 (po，00)， 如 图 11.10 所 示 。 


P=X cos0+ ysing 





(po: 0) 


P=x;CcosO+y, sing 





A 图 11.10 稍 卡 儿 坐 标 映 射 到 参数 空间 


具体 计算 时 ， 与 直角 坐标 类 似 ， 也 要 在 参数 空间 中 建立 一 个 二 维 数 
组 累加 器 A， 只 是 取 值 范围 不 同 。 对 一 幅 大 小 为 DxD 的 图 像 ， 通 常 p 的 
取 值 范围 为 [-V2D/12, V2D/12]，8 的 取 值 范围 为 -90。，90e]。 计 算 方 
法 与 直角 坐标 系 中 累加 器 的 计算 方法 相同 ， 最 后 得 到 的 最 大 的 A 所 对 应 
的 (p，0)。 





Hough 变 换 同 样 适 用 于 方程 已 知 的 曲线 检测 。 图 像 坐标 空间 中 的 一 
条 已 知 的 曲线 方程 也 可 以 建立 其 相应 的 参数 空间 。 由 此 ， 图 像 坐标 空间 
中 的 一 点 ， 在 参数 空间 中 就 可 以 映射 为 相应 的 轨迹 曲线 或 者 曲面 。 知 参 
数 空间 中 对 应 各 个 间断 点 的 曲线 或 者 曲面 能 够 相交 ， 就 能 够 找到 参数 空 
间 的 极 大 值 以 及 对 应 的 参数 ， 大 参数 空间 中 对 应 各 个 间断 点 的 曲线 或 者 
曲面 不 能 相交 ， 则 谨 明 间断 点 不 符合 茶 己 知 曲线 。 

Hough 变 换 做 曲线 检测 时 ， 最 重要 的 是 写 出 图 像 坐标 空间 到 参数 空 
间 的 变换 公式 。 例 如 ， 对 于 已 知 的 圆 方程 ， 其 直角 坐标 的 一 般 方程 为 





(x-a)’ 上 (7 一 四 = 六 C9 


其 中 (a，b) 为 圆心 坐标 ，r 为 圆 的 半径 ， 它 们 为 图 像 的 参数 。 那 么 ， 
参数 空间 可 以 表示 为 (a，b，)， 图 像 坐标 空间 中 的 一 个 圆 对 应 参数 空间 
中 的 一 点 。 

具体 计算 时 ， 与 前 面 讨 论 的 方法 相同 ， 只 是 数组 累加 器 为 三 维 
A(a，b， Tr)。 计 算 过 程 是 让 a、b 在 取 值 范围 内 增加 ， 解 出 满足 上 式 的 r 
值 ， 每 计算 出 一 个 (a，b, 了 ) 值 ， 就 对 数组 元 素 A(a，b，r) 加 1。 计 算 结 束 
后 ， 找 到 的 最 大 的 A(a，b,， 了 所 对 应 的 a、b、I 就 是 所 求 的 圆 的 参数 。 

与 直线 检测 一 样 ， 曲 线 检测 也 可 以 通过 极 坐标 形式 计算 。 

注意 

通过 Hough 变 换 做 曲线 检测 时 ， 参 数 空间 的 大 小 将 随 着 参数 个 数 的 
增加 呈 指 数 上 升 的 趋势 ， 故 在 实际 使 用 时 要 尽量 减少 描述 曲线 的 参数 数 
目 。 因 此 ， 这 种 曲线 检测 的 方法 只 对 检测 参数 较 少 的 曲线 有 意义 。 








11.3.3 任意 形状 的 检 沿 


这 里 所 说 的 任意 形状 的 检测 ， 是 指 应 用 广义 Hough 变换 去 检测 某 
一 任意 形状 边界 的 图 形 。 它 首先 选取 该 形状 中 的 任意 点 (a，b) 为 参考 
点 ， 然 后 从 该 任意 形状 图 形 的 边缘 上 每 一 点 计算 其 切线 方向 p 和 到 参考 
点 (a，b) 位 置 偏 移 矢量 r， 以 及 r 与 x 轴 的 夹 角 a， 如 图 11.11 所 示 。 





A 图 11.11 广义 Hough 变 换 


参考 点 (a，b) 的 位 置 可 由 下 式 算 出 。 

a=x+r(@)cos(a(W)) (11-20) 

b=x+r(@)sin(a(o)) (11-21) 

利用 广义 Hough 变 换 检 测 任意 形状 边界 的 主要 步骤 如 下 。 

(1) 在 预知 区 域 形 状 的 条 件 下 ， 将 物体 边缘 形状 编 成 参考 表 。 对 
于 每 个 边缘 点 计算 梯度 角 $， 对 每 一 个 梯度 角 由 ， 算 出 对 应 于 参考 点 的 
距离 Rj 和 和 角度 a;。 例 如 ， 图 11.11 中 ， 同 一 个 梯度 角 qg 对 应 两 个 点 ， 则 参 
考 表 表 示 为 


办 (ri, 01) (r2, 02) 


同 理 ， 可 以 表示 出 其 他 梯度 角 由 所 对 应 的 参考 表 。 
(2) 在 参数 空间 建立 一 个 二 维 累 加 数组 A(a，b)， 初 值 为 0。 对 边 


缘 上 的 每 一 点 ， 计 算出 该 点 处 的 梯度 角 ， 然 后 ， 由 上 陈 计 算出 每 一 个 可 
能 的 参考 点 的 位 置 值 ， 对 相应 的 数组 元 系 A(a，b) 加 1。 

(3) 计算 结束 后 ， 具 有 最 大 值 的 数组 元 素 A(a，b) 所 对 应 的 a、b 值 
即 为 图 像 坐标 空间 中 所 求 的 参考 点 。 

求 出 参考 点 后 ， 整 个 目标 的 边界 就 可 以 确定 了 。 








通过 Hough 变 换 在 二 值 图 像 中 检测 直线 需要 3 个 步骤 。 
(1) 利用 houghO 函 数 执行 霍 夫 变换 ， 得 到 霍 夫 和 矩阵 。 
(2) 利用 houghpeaks() 函 数 在 霍 夫 和 矩阵 中 寻找 峰值 点 。 
(3) 利用 houghlines() 函 数 在 之 前 2 步 结 果 的 基础 上 得 到 原 二 值 图 像 
中 的 直线 信息 。 
1. 和 堆 夫 变换 一 hough 
hough 函 数 对 一 幅 二 值 图 像 执 行 Hough 变 换 ， 得 到 Hough 甜 阵 。 调 用 
形式 为 
[H, theta, rho] = hough(BW,param1,vall,param2,val2) 
参数 说 明 
e BW 是 边缘 检测 后 的 二 值 图 像 。 
e@ 可 选 参数 对 param1、valuel 以 及 param2、value2 的 合法 取 值 如 表 
11.3 所 示 。 


表 11.3 param 参 数 的 合法 取 值 及 其 意义 





param 取 值 下 
十 pe Hough 和 矩阵 中 9 轴 方 向 上 单位 区 间 的 长 度 ( 以 “ 度 ” 为 单位 )， 可 取 (0，90) 区 间 上 的 实数 ， 默 
ThetaResolution | 
认为 1 
'RhoResolution' Hough 矩阵 中 p 轴 方 向 上 单位 区 间 的 长 度 ， 可 取 〈0，norm(size(BW))) 区 间 上 的 实数 ， 默 认为 1 





返回 值 


e H 是 变换 得 到 的 Hough 知 阵 。 

e theta 和 和 rho 为 分 别 对 应 于 Hough 算 阵 每 一 列 和 每 一 行 的 9 和 p 值 组 成 
的 同 量 。 

2. 寻找 峰值 一 houghpeaks 

houghpeaks 函 数 用 于 在 Hough 和 矩阵 中 寻找 指定 数目 的 峰值 点 ， 调 用 
形式 如 下 。 

peaks = houghpeaks(Hnumpeaks, param1,vall,param2,val2) 

参数 说 明 

e H 古 由 hough() 函 数 得 到 的 Hough 算 阵 。 

e numpeaks 是 要 寻找 的 峰值 数目 ， 默 认为 1。 

e 可 选 参数 对 儿 param1、valuel 以 及 param2、value2 的 合法 取 值 如 表 
11.4 所 示 。 


表 11.4 param 参 数 的 合法 取 值 及 其 意义 


param 取 值 


'Threshold' 峰值 的 阔 值 ， 只 有 大 于 该 阔 值 的 点 才 被 认为 是 可 能 的 峰值 ， 其 取 值 >0， 默 认为 0.5*max(H(:)) 





在 每 次 检测 出 一 个 峰值 后 ，NhoodSize 指出 了 在 该 峰值 周围 需要 清 零 的 邻 阔 信 息 。 以 向 量 LW NN] 的 形式 给 


9 | 出 ， 其 中 M、N 均 为 正 的 奇数 。 默 认为 大 于 等 于 size(F/50 的 最 小 奇数 





返回 值 

e peaks 是 一 个 Qx2 的 和 矩阵， 每 行 的 2 个 元 系 分 别 为 菏 一 峰值 点 在 
Hough 惩 阵 中 的 行 、 列 索引 ，Q 为 找到 的 峰值 点 的 数目 。 

3. 提取 直线 段 一 houghlines 

Houghlines 函 数 根据 Hough 和 矩阵 的 峰值 检测 结 末 提取 直线 段 ， 调 用 
语法 为 

lines = houghlines(BW ,theta, rho, peaks, param1l, vall, param2, val2) 

参数 说 明 

e BW 是 边缘 检测 后 的 二 值 图 像 。 


e se 0 的 向 量 ， 由 
hough 函 数 返 
® et 点 信息 的 Qx2 的 算 阵 ， 由 houghpeaks 函 数 返 





回 。 
e@ 可 选 参数 对 儿 param1、value1 以 及 param2、value2 的 合法 取 值 如 表 
11.5 所 示 。 


表 11.5 param 人 参数 的 合法 取 值 及 其 意义 








param 取 值 含 义 
‘FillGap 线段 合并 的 阔 值 :如 果 对 应 于 Hough 和 矩阵 某 一 个 单元 格 ( 相 同 的 2 和 p) 的 2 个 线段 之 间 的 距离 小 于 FillGap， 
则 合并 为 1 个 直线 段 。 默 认 值 为 20 
'MinLeneth' 检测 的 直线 段 的 最 小 长 度 阔 值 : 如 果 检 测 出 的 直线 段 长 度 大 于 MinLength， 则 保留 丢 充 所 有 长 度 小 于 
8 ”| MinLength 的 直线 段 。 默 认 值 为 40 
返回 值 


。 lines 是 一 个 结构 体 数组 ， 数 组 长 度 是 找到 的 直线 条 数 ， 而 每 一 个 
数组 元 素 〈 直 线段 结构 体 ) 的 内 部 结构 如 表 11.6 所 示 。 


表 11.6 lines 的 结构 














域 含 交 
pointl 直线 段 的 端点 1 
point2 直线 段 的 端点 2 
theta 对 应 在 霍 夫 和 矩阵 中 的 9 
rho 对 应 在 电 夫 和 窍 阵 中 的 pp 


[ 例 11.2] 利 用 Hough 变 换 对 Matlab 示 例 图 片 circuit.tif 进 行 直线 检测 ， 
显示 Hough 和 矩阵 和 检测 到 的 峰值 ， 并 在 原 图 中 标 出 符合 要 求 的 所 有 直线 
段 : 

相应 的 Matlab 实 现代 码 如 下 。 

I = imread('circuit.tif”); % 读 取 图 像 


% 旋转 图 像 并 寻找 边缘 

rotI = imrotate(1,33,'crop'); 

BW = edge(rotl,'canny'); 

% 执行 Hough 变 换 并 显示 Hough 和 矩阵 

[H,T,R] = hough(BW); 

imshow(H,[],'XData',T,'YData',R,'InitialMagnification', fit"); % 得 到 图 
11.12 (a) 

xlabel("\theta'), ylabel(\rho'); 

axis on, axis normal, hold on:; 

% 在 Hough 算 阵 中 寻找 前 5 个 大 于 Hough 和 矩阵 中 最 大 值 0.3 倍 的 峰值 

P = houghpeaks(H,5,'threshold',ceil(0.3*max(H(:)))); 

XxX=TP(,2));y= R(P(:,1)); % 由 行 、 列 索引 转换 成 实际 坐标 

plot(x,y,'s','color',"'white"); % 在 Hough 和 矩阵 图 像 中 标 出 峰值 位 置 

% 找到 并 绘制 直线 

lines = houghlines(BW,T,R,P,'FillGap',5,"MinLength',7); % 合并 距离 小 
于 5 的 线段 ， 丢 径 所 有 长 度 

小 于 7 的 直线 段 


figure, imshow(rotD, hold on 








max len = 0; 

for k = 1:length(lines) % 依次 标 出 各 条 直线 段 
xy = [lines(k).pointl; lines(k).point2 ]; 
plot(xy(:,1),xy(:,2), LineWidth',2,'Color','green'); 
% 绘制 线段 端点 
plot(xy(1,1),xy(1,2),'x',LineWidth',2,'Color','yellow'); 
plot(xy(2,1),xy(2,2),'xX',LineWidth',2,'Color','red'); 
% 确定 最 长 的 线段 


len = norm(lines(k).point] - lines(k).point2); 


if ( len > max_len) 
max_ len = len; 
Xy_long = xy; 
end 
end 
% 高 之 显示 最 长 线段 
plot(xy_long(:,1),xy_long(:,2),'LineWidth',2,'Color','cyan'"); % 得 到 图 
11.12 (b) 
上 述 程 序 的 运行 结果 如 图 11.12 所 示 。 
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(a) Hough 矩阵 和 峰值 点 (b) 检测 出 的 直线 段 
A 图 11.12 Hough 变 换 效果 (CEFillGap'=5) 


注意 到 在 houghpeaks 函 数 执行 后 ， 我 们 共 得 到 了 5 个 峰值 ， 然 而 图 
11.12 (b) 的 结果 中 却 出 现 了 8 条 直线 段 ， 这 正 是 houghlines 函 数 中 
FillGap' 参 数 的 作用 。 将 FillGap' 设 定 为 80 可 以 合并 原本 共 线 (有 相同 的 
6 和 p) 的 各 个 直线 段 ， 将 得 到 如 图 11.13 所 示 的 结果 。 





A 图 11.13 检测 出 的 直线 段 CFillGap'=80) 


注意 

霍 夫 变换 只 能 处 理 二 值 图 像 ， 一 般 在 执行 变换 前 需要 首先 在 图 像 上 
执行 边缘 检测 。 

在 金 羽 图 书 论坛 (http://bbs.book95.com) 的 “金鸡 图 书 与 答疑 "板块 
与 本 书 同名 的 主题 帖子 附件 的 第 11 章 目录 中 我 们 提供 了 一 副 名 为 
line.bmp 的 示例 图 片 ， 供 读者 检验 Hough 变 换 的 效果 。 





11.4 国 值 分 央 


我 们 曾 在 3.5 节 学 习 过 灰 度 半 值 变换 的 相关 知识 ， 利 用 灰 度 国 值 变 
换 分 割 图 像 就 称 为 国 值 分 割 ， 它 是 一 种 基本 的 图 像 分 割 方法 。 

装 值 分 割 的 基本 思想 是 确定 一 个 装 值 ， 然 后 把 每 个 像素 点 的 灰 度 值 
和 交 值 相 比较 ， 根 据 比 较 的 结果 把 该 像 妹 划分 为 两 类 一 一 前 景 或 者 背 
景 。 一 般 来 说 ， 阐 值 分 割 可 以 分 成 以 F3 步 。 

(1) 确定 阔 值 。 

(2) 将 阀 值 和 像素 比较 。 


(3) 把 像素 归 类 。 
其 中 第 (1) 步 立 值 的 确定 是 最 重要 的 。 阐 值 的 选择 将 直接 影响 分 
割 的 准确 性 以 及 由 此 产生 的 图 像 描 述 、 分 析 的 正确 性 。 


11.4.1 闵 值 分 割 | 方 》 


闵 值 分 割 常 用 的 方法 一 般 有 以 下 几 种 。 

1. 实验 法 

实验 法 是 通过 人 眼 的 观察 ， 对 已 知 某 些 特征 的 图 像 ， 只 要 试验 不 同 
的 闪 值 ， 然 后 看 是 否 满 足 已 知 特征 即 可 。 这 种 方法 的 问题 是 适用 范围 
罕 ， 使 用 前 必须 事先 知道 图 像 的 某 些 特征 ， 如 平均 灰 度 等 ， 而 且 分 割 后 
的 图 像 质量 的 好 坏 受 主观 局 限 性 很 大 。 

2. 根据 直方 图 谷底 确定 闽 值 

如 果 图 像 的 前 景物 体内 部 和 背景 区 域 的 灰 度 值 分 布 都 比较 均匀 ， 那 
么 这 个 图 像 的 灰 度 直方 图 将 具有 明显 双 峰 ， 此 时 可 以 选择 两 峰之 间 的 谷 
底 作 为 国 值 ， 如 图 11.14 所 示 。 








A 图 11.14 根据 直方 图 谷 确 确定 阐 值 
其 表达 式 为 


pe 
0 f(x,y)<T 


g(xX) -| (11-22) 

式 中 : g(x) 为 阅 值 运算 后 的 二 值 图 像 。 

此 种 单 阐 值 分 割 方法 简单 易 操作 ， 但 古 当 两 个 峰值 相差 很 远 时 不 适 
用 ， 而 且 ， 此 种 方法 比较 容易 受到 噪声 的 影响 ， 进 而 导致 国 值 选取 的 误 
2 

对 于 有 多 个 峰值 的 直方 图 ， 可 以 选取 多 个 阐 值 ， 这 些 阐 值 的 选取 一 
般 没 有 统一 的 规则 ， 要 根据 实际 情况 运用 ， 如 图 11.15 所 示 。 





Ti T» Ts 


A 图 11.15 多 峰值 直方 图 确定 闵 值 





由 于 直方 图 是 各 灰 度 的 像素 统计 ， 其 峰值 和 谷底 特性 不 一 定 代 表 目 
标 和 背景 。 因此， 如 果 没 有 图 像 其 他 方面 的 知识 ， 只 徘 直方 图 进行 图 像 
分 割 是 不 一 定 准确 的 。 

3. 友 代 选择 国 值 法 

迭代 式 国 值 选择 方法 的 基本 思想 是 开始 选择 一 个 闭 值 作为 初始 估计 
值 ， 然 后 按照 条 种 规则 不 断 地 更 新 这 一 估计 值 ， 直 到 满足 给 定 的 条 件 为 
止 。 这 个 过 程 的 关键 是 选择 怎么 样 的 述 代 规则 。 一 个 好 的 迭代 规则 必须 
既 能 够 快速 收 人 勾 ， 又 能 够 在 每 一 个 迭代 过 程 中 产生 的 优 于 上 次 友 代 的 结 
果 。 下 面 是 一 种 迭代 选择 办 值 算法 。 

(1) 选择 一 个 IT 的 初始 估计 值 。 

(2) 利用 阐 值 T 把 图 像 分 为 两 个 区 域 RI 和 R，,。 

(3) 对 区 域 R1 和 Rs, 中 的 所 有 像素 计算 平均 灰 度 值 p1 和 pp,。 

(4) 计算 新 的 阔 值 : 





] 
gy (11-23) 





(5) 重复 步骤 (2) 一 〈4) ， 直 到 逐次 碗 代 所 得 的 T 值 小 于 事先 定 
义 的 参数 T。 

4. 最 小 均 方 误差 法 

最 小 均 方 误差 法 也 是 常用 的 闵 值 分 割 法 之 一 。 这 种 方法 通常 以 图 像 
中 的 灰 度 为 模式 特征 ， 假 设 各 模式 的 灰 度 是 独立 分 布 的 随机 变量 ， 并 假 
设 图 像 中 竺 分割 的 模式 服从 一 定 的 概率 分 布 。 一 般 来 说 ， 采 用 的 是 正 态 
分 布 ， 即 高 斯 概率 分 布 。 

首先 假设 一 幅 图 像 仅 包含 两 个 主要 的 灰 度 区 域 一 一 前 景 和 背景 。 令 
z 表 示 灰 度 值 ，p(z) 表 示 灰 度 值 概率 密度 函数 的 估计 值 。 假 设 概率 密度 函 
数 一 个 对 应 于 背景 的 灰 度 值 ， 男 一 个 对 应 于 图 像 中 前 景 即 对 象 的 灰 度 
值 。 则 揪 述 图 像 中 整体 灰 度 变换 的 混合 密度 函数 古 


























p(z2)= Ppi(z)+ Bp;(2z) C1 2 























其 中 pj 是 前 景 中 具有 值 z 的 像素 出 现 的 概率 ，p, 是 背景 中 具有 值 z 的 
像素 出 现 的 概率 ， 两 者 的 关系 为 


DB = (11-25) 











即 图 像 中 的 像素 只 能 是 属于 前 景 或 者 背景 ， 没 有 第 3 种 情况 。 现 要 
选 定 一 个 冰 值 T， 将 图 像 上 的 像素 进行 归 类 。 采 用 最 小 均 方 误差 法 的 目 
的 是 选择 T 时 ， 使 对 一 个 给 定 像素 进行 是 前 景 还 是 背景 的 分 类 时 出 错 的 
概率 最 小 ， 如 图 11.16 所 示 。 
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4 图 11.16 最 小 均 方 误差 法 确定 国 值 





当选 定 阔 值 T 时 ， 将 一 个 背景 点 当成 前 景点 进行 分 类 错误 出 现 的 概 


Ei(T)=| PP(z)dz (11-26) 


A、 人 


E(T)= BE(T)+ RE2(7) 











当选 定 国 值 IT 时， 将 一 个 前 景点 当成 育 景点 进行 分 类 错误 出 现 的 概 


E2(7T)=|, pi(z)dz CT 


总 错误 率 为 
(11-28) 


要 找到 出 错 最 少 的 阐 值 T， 需 要 将 E(T) 对 T 求 微分 并 令 微 分 式 等 于 


0， 于 是 结果 是 


起 


Rpi(T)= Pp2(7) (11-29) 


根据 这 个 等 式 解 出 T， 即 为 最 佳 阔 值 。 

下 面 讨 论 如 何 得 到 T 的 解析 式 。 

要 想得到 TT 的 分 析 表 达 式 ， 则 需要 已 知 两 个 密度 概率 函数 的 解析 
一 般 假设 图 像 的 前 景 和 背景 的 灰 度 分 布 都 满足 正 态 分 布 ， 即 使 用 高 








斯 密度 概率 函数 。 此 时 
| (z 一 AD 
[一 一 (11-30) 
V2n0] *p| 201° | 
i (11-31) 
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P2(2) = exp[ 
AN2TO> 202” 


若 I = =02 ， 则 单一 阐 值 








ed NL in 全 | iT 
yy LH — M2 n 








若 P1=P2=0.5， 则 最 佳 闪 值 是 均值 的 平均 数 ， 即 位 于 曲线 pi(z) 和 
p2(Z) 的 交点 处 。 
H+ 2 


7 = 一 一 一 (11-33) 
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一 


一 般 来 讲 ， 确 定 能 使 均 方 误 状 最 小 的 参数 很 复杂 ， 而 上 述 讨论 也 在 
图 像 的 前 景 和 背景 都 为 正 态 分 布 的 条 件 下 成 立 。 但 是 ， 图 像 的 前 景 和 背 
景 是 否 都 为 正 态 分 布 ， 也 是 一 个 具有 挑战 性 的 问题 。 

5， 最 大 类 间 方 关 法 

在 对 图 像 进行 国 值 分 割 时 ， 选 定 的 分 割 装 值 应 使 前 景区 域 的 平均 灰 
度 、 背 景区 域 的 平均 灰 度 与 整 幅 图 像 的 平均 灰 度 之 间 差 别 最 大 ， 这 种 产 
异 用 区 域 的 方差 来 表示 。 由 此 ，Otsu 在 1978 年 提出 了 最 大 方差 法 。 该 算 
法 在 判决 分 析 最 小 二 乘法 原理 的 基础 上 推导 得 出 ， 计 算 简单 ， 是 一 种 稳 
定 、 常 用 的 算法 。 

设 图 像 中 灰 度 为 i 的 像 际 数 为 m， 灰 度 范围 为 [0,L-1， 则 总 的 像素 数 























为 
L-l 
N= On (11-34) 
i=0 


各 灰 度 值 出 现 概 率 为 


pi = 一 (11-35) 


,pi=1 (11-36) 


把 图 像 中 的 像素 用 国 值 I 分 成 两 类 co 和 cl，co 由 灰 度 值 在 [0, T-1] 的 像 
素 组 成 ，ci 由 灰 度 值 在 [T, L-1] 的 像 系 组 成 。 则 区 域 co 和 ci 的 概率 分 别 为 


了 一 ] 
R= p; (11-37) 


t= 


了 一 ] 
R= p=1-D (11-38) 


区 域 cc 和 ci 的 平均 灰 度 分 别 为 





1 =p Di -A (11-39) 


hi 


jh = 一 Lg, -LL 和 (11-40) 


hj; 


其 中 ,bh 是 整 幅 图 像 的 平均 灰 度 。 


1- 1-l L-1 
HK= 2,ip = 2 ipi + 2 ip =PRu+Pu (11-41) 
i=0 i=d te 
两 个 区 域 的 总 方差 为 
og =h(10-1) +R(4 -1) = RR( -pn) (11-42) 


让 T 在 [0,L-1] 范 围 内 依次 取 值 ， 使 ce ?最 大 的 T 值 便 是 最 佳 区 域 分 害 
闵 值 。 

该 方法 不 需要 人 为 设 定 其 他 参数 ， 是 一 种 自动 选择 阔 值 的 方法 ， 而 
且 能 得 到 较 好 的 结果 。 它 不 仅 适用 于 包含 两 个 区 域 的 单 阔 值 选择 ， 也 同 
样 适用 于 多 区 域 的 多 阔 值 选择 。 


11.4.2 Matlab 实 现 





1. 最 大 类 间 方 差 法 

Matlab 中 和 羡 值 变换 相关 的 2 个 主要 函数 是 im2bw 和 graythresh。 实 
际 上 ，graythresh 函 数 即 实现 了 11.4.1 小 节 介 绍 的 最 大 类 间 方 差 法 。 它 们 
的 用 法 在 3.5.2 小 节 有 详细 地 介绍 ， 这 里 不 再 歼 述 。 

2. 友人 代 选择 国 值 法 

下 面 还 给 出 了 根据 友 代 选择 国 值 法 原理 编写 的 Matlab 函 数 
autoThreshold()， 它 位 于 金 羽 图 书 论坛 (http://bbs.book95.com) 的 “ 金 羽 
图 书 与 答疑 ”板块 与 本 书 同名 的 主题 帖子 附件 的 “chapterll\code” 目 录 
中 。 

function [Ibw, thres] = autoThreshold(D) 

% 友 代 法 自动 国 值 分 割 

% 

% 输入 : 工 - 要 进行 自动 国 值 分 割 的 灰 度 图 像 

% 输出 : Ibw -分割 后 的 二 值 图 像 

% thres - 自动 分 割 采用 的 阐 值 

thres = 0.5 * (double(min(I(:))) + double(max(1(:)))); % 初 始 阔 值 

done = false: % 结 束 标 志 


while ~ done 








g = 1 >= thres; 
Tnext = 0.5 * (mean(l(g)) + mean(I(~g))); 
done = abs(thres - Tnext) < 0.5; 
thres = Tnext: 
end; 
Ibw = im2bw(L thres/255); % 二 值 化 
下 面 给 出 一 个 利用 autoThreshold0 函 数 对 Matlab 内 置 图 像 coins.png 进 


行 目 动 阅 值 分 割 的 调用 示例 。 
f = imread('coins.png"); % 读 入 原 图 像 
[Ibw, thres] = autoThreshold(1); 
imshow(Ibw) % 得 到 图 11.17 
thres % 显 示 所 用 立 值 
thres = 
126.0522 
上 述 程 序 的 运行 结果 如 图 11.17 所 示 。 





A 图 11.17 迭代 选择 法 的 自动 阔 值 分 割 结 


11.5 区 域 分 特 


前 面 所 讲 的 图 像 分 割 方法 都 是 基于 像素 的 灰 度 来 进行 国 值 分 割 ， 本 
节 将 讨论 以 区 域 为 基础 的 图 像 分 割 技术 。 传 统 的 区 域 分 割 方法 有 区 域 生 
长 和 区 域 分 裂 与 合并 ， 其 中 最 基础 的 是 区 域 生长 法 。 


11.5.1 区 域 生 长 及 其 实现 








区 域 生长 是 根据 事先 定义 的 准则 将 像 系 或 者 子 区 域 肾 合 城 更 大 区 域 





的 过 程 。 其 基本 思想 是 从 一 组 生长 点 开始 〈 生 长 点 可 以 是 单个 像素 ， 也 
可 以 为 某 个 小 区 域 ) ， 将 与 该 生长 点 性 质 相 似 的 相 邻 像素 或 者 区 域 与 生 
长 点 合并 ， 形 成 新 的 生长 点 ， 重 复 此 过 程 直到 不 能 生长 为 止 。 生 长 点 和 
相 邻 区 域 的 相似 性 判 据 可 以 是 灰 度 值 、 纹 理 、 颜 色 等 多 种 图 像 信息 。 

1. 区 域 生 长 算法 

区 域 生长 一 般 有 3 个 步 又 。 

(1) 选择 合适 的 生长 点 。 

(2) 确定 相似 性 准则 即 生长 准则 。 

(3) 确定 生长 停止 条 件 。 

一 般 来 说 ， 在 无 像素 或 者 区 域 满 足 加 入 生长 区 域 的 条 件 时 ， 区 域 生 
长 就 会 停止。 

图 11.18 给 出 一 个 区 域 生 长 的 实例 : 图 11.18 (a〉 所 示 为 原 图 像 ， 数 
字 表 示 像 素 的 灰 度 。 以 灰 度 为 8 的 像素 为 初始 的 生长 点 ， 记 为 fGi, )。 在 8 
邻 域内 ， 生 长 准则 是 待 测 点 灰 度 值 与 生长 点 灰 度 值 相差 为 1 或 者 0。 那 
么 ， 如 图 11.18 (b) 所 示 ， 第 一 次 区 域 生 长 后 ，f(i-1 j)、f(i, j-1)、f6G, 
j+1) 与 中 心 点 灰 度 值 相差 都 为 1， 因 而 被 合并 。 第 二 次 生长 后 ， 如 图 
11.18(c) 所 示 ，f(i+1,j) 被 合并 。 第 三 次 生长 后 ， 如 图 11.18 (d) 所 
示 ，f(i+1, j-1)、f(i+2, j) 被 合并 ， 至 此 ， 已 经 不 存在 满足 生长 准则 的 像素 
点 ， 生 长 停止 。 
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A 图 11.18 区 域 生 长 示意 图 


上 面 的 方法 比较 的 是 单个 像素 与 其 邻 域 的 灰 度 特征 以 实现 区 域 生 
长 ， 也 有 一 种 混合 型 区 域 生长 把 图 像 分 割 成 奋 干 小 区 域 ， 比 较 相 邻 小 区 
域 的 相似 性 ， 如 果 相 似 则 合并 。 在 实际 中 ， 区 域 生长 时 经 常 还 要 考虑 到 
生长 的 “历史 ”， 还 要 根据 区 域 的 尺寸 、 形 状 等 图 像 的 全 局 性 质 来 决定 区 
域 的 合并 。 

2. Matlab 实 现 

下 面 给 出 一 个 基于 种 子 点 8- 邻 域 的 区 域 生 长 算法 的 Matlab 实现 ， 
它 位 于 金 羽 图 书 论坛 (http://bbs.book95.com) 的 “金鸡 图 书 与 答疑 ?板块 
与 本 书 同 名 的 主题 帖子 附件 的 “chapterll\code” 目 录 下 的 regionGrow.m 文 
件 中 。 

function J = Ss 

% 区 域 生 长 ， 需 要 以 交互 方式 设 定 初始 种 子 点 ， 具 体 方法 为 鼠标 单 
击 图 像 中 一 点 后 ， 按 下 回 车 键 

% 





% 输入 : 工 - 原 图 像 
% 输出 : J -输出 图 像 
if isinteger(]) 
[=im2double(l); 
end 
figure,imshow(]),title(' 原 始 图 像 ') 
[M,N]=size(D); 
[y,x]=getpts; 9% 获 得 区 域 生长 起 始点 
xl=round(x); 9% 横 坐标 取 整 
e1=round(y); 9% 纵 坐标 取 整 
seed=I(x1y1); 9% 将 生长 起 始点 灰 度 值 存 入 seed 中 
J=Zzeros(MN); 9% 作 一 个 全 零 与 原 图 像 等 大 的 图 像 矩阵 J， 作 为 输出 


图 像 矩 阵 


和 


日 
是 否 


人 军 为 图 像 边 界 上 的 点 





J(x1,y1)=1;”% 将 J 中 与 所 取 点 相对 应 位 置 的 点 设置 为 白 

sum=seed; 9% 储 存 符 合 区 域 生 长 条 件 的 点 的 灰 度 值 的 和 

suit=1; ”% 储 存 符合 区 域 生长 条 件 的 点 的 个 数 

count=1; ”% 记 录 每 次 判断 一 点 周围 八 点 符合 条 件 的 新 点 的 数目 
threshold=0.15; ”9% 国 值 ， 注 意 需 要 和 double 类 型 存储 的 图 像 相 符合 
while count>0 


s=0; ”9% 记 录 判 断 一 点 周围 八 点 时 ， 符 合 条 件 的 新 点 的 灰 度 值 之 


count=0; 
for i=1:M 
for j=1:N 
if J(i,j)==1 
if (i-1)>0 & (i+1)<(M+1) & Oj-1)>0 & G+1)<(N+1) % 判 断 此 点 





foru= -1:1 9% 判 断 点 周围 八 点 是 否 符合 国 值 条 件 
for v= -1:1 
if J(it+u,j+v)==0 & abs(I(Gi+u,j+V)-seed)<=thresholdsx 
1/(1+1/15*abs(I(i+u, 
j+V)-Seed))>0.8 
J(i+u,j+V)=11; 
% 判 断 是 人 否 疝 未 标记 ， 并 且 为 符合 浆 值 条 件 的 点 
% 符 合 以 上 两 条 件 即 将 其 在 J 中 与 之 位 置 对 应 的 点 设置 为 白 
count=count+1; 
s=Ss+I(i+uj+v; 9% 此 点 的 灰 度 之 加 入 s 中 


end 











end 
end 
end 
end 
end 
end 
suit=suit+count; 9% 将 n 加 入 符合 点 数 计数 器 中 
sum=sum+s; 9% 将 s 加 入 符合 点 的 灰 度 值 总 合 
seed=sum/suit; 9% 计 算 新 的 灰 度 平均 值 
end 
下 面 给 出 一 个 利用 regionGrowO 函 数 对 Matlab 内 置 图 像 coins.png 进 行 
基于 种 子 点 的 区 域 生 长 的 调用 示例 。 
>> I = imread('coins.png'); 
>> J = regionGrow!(]); 
>> figure,imshow(J), title(' 分 割 后 图 像 ) 
上 述 程序 运行 后 ， 会 弹出 一 个 包含 原 图 像 的 窗口 ， 用 户 可 以 用 鼠标 


在 其 中 选取 一 个 种 子 点 并 按 下 回 车 键 ， 之 后 会 出 现 分 割 结 果 ， 如 图 
11.19 所 示 。 


原始 图 像 分 割 后 图 像 





(a) 原始 图 像 (b) 区 域 生 长 结果 


A 图 11.19 区 域 生 长 算法 示例 





区 域 生 长 是 从 一 组 生长 点 开始 的 ， 另 一 种 方法 是 在 开始 时 将 图 像 分 
制 为 一 系列 任意 不 相交 的 区 域 ， 然 后 将 它们 合并 或 者 拆 分 以 满足 限制 条 
件 ， 这 就 是 区 域 分 裂 与 合并 。 通 过 分 裂 ， 可 以 将 不 同 特征 的 区 域 分 离 
开 ; 而 通过 合并 ， 将 相同 特征 的 区 域 合 并 起 来 。 

1. 区 域 分 裂 与 合并 算法 

(1) 分 裂 

令 R 表示 整个 图 像 区 域 ，P 代表 某 种 相似 性 准则 。 一 种 区 域 分 裂 方 
法 是 首先 将 图 像 等 分 为 4 个 区 域 ， 然 后 反复 将 分 割 得 到 的 子 图 像 再 次 分 
为 4 个 区 域 ， 直 到 对 任意 Rij，P(Ri)=TRUE， 表 示 区 域 Ri 已 经 满足 相似 性 
准则 《譬如 说 该 区 域内 的 灰 度 值 相等 或 相近 ) ， 此 时 不 再 进行 分 裂 操 
作 。 如 有 果 P(R;)=FALSE， 则 将 R; 分 割 为 4 个 区 域 。 如 此 继续 下 去 ， 直 到 


P(Rj)=TRUE 或 者 已 经 到 单个 像素 。 这 个 过 程 可 以 用 四 又 树 形 式 表示 ， 
如 图 11.20 所 示 。 


二 
Ri || R2 | | Rs || Rs 

Ra | | Ra | Rs | LRs 
Ra | | Ran | [Rys | [Ren 


(a) 被 分 割 的 图 像 (b) 对 应 的 四 又 树 








和 图 11.20 四 又 树 算法 示意 图 


其 中 图 11.20 (a) 中 未 标 出 的 4 个 区 域 分 别 为 Ra1、R4a12、R4a13 和 
R4l4。 

(2) 合并 

和 分 离 之 后 ， 结 果 中 一 般 会 包含 具有 满足 相似 性 的 邻近 区 域 ， 这 就 
需要 将 满足 相似 性 条 件 的 相 邻 区 域 进行 合并 。 

可 在 分 裂 完 成 后 ， 也 可 在 分 裂 的 同时 ， 对 具有 相似 特征 的 相 邻 区 域 
进行 合并 。 一 种 方法 是 将 图 像 中 任意 两 个 具有 相似 特征 的 相 邻 区 域 Ri、 
Ry 合并 ， 即 如 果 P(RjURI)=TRUE， 则 合并 R;:、Rx。 合 并 的 两 个 区 域 可 
以 大 小 不 同 ， 即 不 在 同一 层 。 当 无 法 再 进行 聚合 或 拆 分 时 操作 停止。 

一 个 区 域 分 裂 与 合并 的 实例 如 图 11.21 所 示 。 








于 


| At .vhs AN tl 、 XA 
(a) 一 全 分 家 b) 第 二 次 分 裂 





A 图 11.21 区 域 分 裂 与 合并 


图 像 先 分 裂 为 如 图 11.21 (a) 的 区 域 ， 第 二 次 分 裂 时 ， 如 图 
11.21 (b) 所 示 ， 由 于 左下 角 区 域 满足 P(Ri)=TRUE， 则 不 进行 分 裂 操 
作 ; 第 三 次 分 裂 时 ， 如 图 11.21 〈c) 所 示 ， 仅 仅 右 边 的 突出 部 分 
P(Ri)=FALSE， 需 要 进行 分 裂 操 作 ， 其 余 不 变 ， 完 成 后 ， 分 裂 停止 ， 最 
后 ， 对 两 个 相 邻 区 域 实 行 合并 ， 一 直 得 到 最 后 的 结果 ， 如 图 11.21 (d) 
所 示 。 








区 域 分 裂 与 合并 对 分 割 复 杂 的 场景 图 像 比 较 有 效 ， 如 果 引 入 应 用 领 
域 知识 ， 则 可 以 更 好 地 提高 分 割 效果 。 

2. 区 域 分 裂 的 Matlab 实 现 

在 Matlab 中 ， 和 区 域 分 裂 相关 的 3 个 主要 函数 是 qtdecomp、dqdtgetblk 
和 qtsetblk。 

(1) gtdecomp 函 数 

Matlab 的 IPT 函数 qtdecomp 可 以 进行 四 叉 树 分 解 。 访 函数 首先 将 图 
像 划分 成 相等 大 小 的 4 块 ， 然 后 对 每 一 个 块 进行 一 致 性 检查 : 如 果 访 块 
不 符合 一 致 性 标准 ， 则 将 该 块 继续 分 为 4 块 ， 否 则 不 对 其 进行 进一步 的 
分 割 。 这 个 过 程 将 会 一 直 重 复 直 至 每 一 个 块 都 符合 一 致 性 标准 ， 分 解 的 
结果 可 能 会 包含 许多 大 小 不 同 的 块 。 

qtdecomp 冰 数 的 常用 调用 形式 为 

S=dtdecomp(I ,threshold,[mindim maxdim]) 

参数 说 明 

e I 为 输入 的 灰 度 图 像 。 

e threshold 是 分 割 成 的 子 块 中 允许 的 阅 值 ， 默 认 值 为 0。 如 果子 块 中 
最 大 元 素 和 最 小 元 素 的 差 值 小 于 该 闵 值 就 认为 满足 一 致 性 条 件 。 对 于 
double 型 矩阵 ，threshold 将 直接 作为 闷 值 ， 而 对 于 uinit8 和 uint16 类 型 的 
矩阵 ，threshold 将 被 乘 以 255 和 65 535 以 作为 实际 阐 值 。 对 于 图 像 而 
言 ，threshold 的 取 值 范围 是 0 一 1。 

e [mindim maxdim] 是 尺度 闵 值 。mindim 参 数 可 以 屏蔽 函数 对 尺度 
上 小 于 mindim 的 子 块 的 处 理 ， 而 不 论 这 个 子 块 是 否 满足 一 致 性 条 件 ， 如 
果 参 数 形式 为 [mindim maxdim]， 则 表示 不 产生 小 于 mindim 尺 度 的 子 
块 ， 也 不 保留 大 于 maxdim 尺 度 的 子 块 ， 此 时 maxdimvmindim 必 须 是 2 的 
整数 次 项 。 

返回 值 

e S 是 一 个 稀 芷 年 孟 ， 在 每 个 子 块 的 左上 角 给 出 子 块 的 大 小 。 
































下 面 的 程序 给 出 了 对 图 像 I 的 四 叉 树 分 解 结果 和 矩阵 5。 
>>I=uint8([1 111 23 6 6;.. 
1121 45 6 8;. 
1 ld 7 
1111 66 5 5;... 
20222022 12 3 4:... 
20222220 54 7 8;... 
20 22 20 20 9 12 40 12.;... 
20 22 2020 1314 15 16]); 
S = qtdecomp(L.05); % 执 行 4 又 树 分 解 ， 子 块 闷 值 为 0.05 
disp(full(S)); % 显 示 完 整 的 稀 玖 矩阵 
4 0 0 0 4 0 0 0 
0 0 0 0 0 0 0 0 
00 0 0 0 0 0 0 


0 0 0 0 0 0 0 0 
4 0 0 0 2 0 2 0 
0 0 0 0 0 0 0 0 
0 0 0 0 20 11 
0 0 0 0 0 0 1 1 


我 们 看 到 ，S 中 的 非 0 元 素 位 于 该 分 块 的 左上 角 ， 表 示 块 的 大 小 。 

注意 

dtdecomp 函数 主要 适用 于 边 长 是 2 的 整数 次 壤 的 正方 形 图 像 ， 如 
128x128， 512x512， 此 时 分 解 可 一 直 进 行 至 子 块 大 小 为 1x1。 

对 于 长 宽 不 是 2 的 整数 次 苏 的 图 像 ， 分 解 可 能 无 法 进行 到 底 。 例 
如 ， 对 于 96x96 的 图 像 ， 将 首先 分 解 为 48x48， 然 后 是 24x24、12x12、 
6x6， 最 后 是 3x3， 无 法 再 继续 分 解 。 此 时 必须 指定 mindim 参 数 为 3 或 是 
2 的 整数 次 暴 与 3 的 乘积 。 











(2) qtgetblk 函 数 
在 得 到 稀 玻 矩 阵 S 后 ， 利 用 IPT 函数 qtgetblk 可 进一步 获得 四 又 树 分 
解 后 所 有 指定 大 小 的 子 块 像素 及 位 置信 息 。 常 用 调用 形式 为 
[vals, r, c] = qtgetbjk(L S, dim) 
参数 说 明 
e I 为 输入 的 灰 度 图 像 。 
e 稀 玻 矩阵 S 是 I 经 过 qtdecomp 消 数 处 理 的 输出 结果 。 
e dim 是 指定 的 子 块 大 小 。 
返回 值 
e vals 是 dimxdimxk 的 三 维 矩 阵 ， 包 含 I 中 所 有 符合 条 件 的 子 块 数 
据 。 其 中 k 为 符合 条 件 的 dimxdim 大 小 的 子 块 的 个 数 ，vals(:,: 四 表示 符合 
条 件 的 第 i 个 子 块 的 内 容 。 
er 和 c 鬼 为 列 癌 量 ， 分 别 表 示 网 像 I 中 符合 条 件 子 块 左上 角 的 纵 坐 标 
〈 行 索引 ) 和 横 坐 标 《〈 列 索引 ) 。 
下 面 的 程序 用 于 寻找 给 定 图 像 I 中 的 4x4 子 块 ， 并 返回 每 个 子 块 的 起 
始点 坐标 。 
人 
1 1 2 1 4 5 6 8 
1 1 1 1 10 15 7 7 
1 1 1 1 20 25 7 7 
20 22 20 22 1 2 3 4 
20 22 22 20 5 6 7 8 
20 22 20 20 9 10 11 12 
22 22 20 20 13 14 15 16j; 
S = qtdecomp(L5); % 对 于 double 型 算 阵 I， 将 以 5 作为 闷 值 进行 四 文 
树 分 解 
[vals,r,c] = qtgetblk(1,S,4) 





size(vals, 3) % 但 看 4*4 子 块 的 个 数 


ans = 
2 

% 显示 第 1 个 4*4 子 块 内 容 
vals(:,:,1) = 

1 1 1 1 

1 1 2 1 

1 1 1 1 

1 1 1 1 

% 显示 第 1 个 4*4 子 块 内 容 
vals(:,:,2) = 


20. 22" 20° 22 
20 22 22 20 
20 22 20 20 
22 22 20. .20 
% 显示 子 块 的 位 置 的 左上 角 坐 标 


工 三 





Ul ~ 


(3) qtsetblk 函 数 
在 将 图 像 划 分 为 子 块 后 ， 还 需要 使 用 函数 qtsetblk 将 四 又 树 分 解 所 得 
到 的 子 块 中 符合 条 件 的 部 分 全 部 蔡 换 为 指定 的 子 块 。 函 数 语 法 为 
J = gtsetblk(I, S, dim, vals) 
参数 说 明 


e I 为 输入 的 灰 度 图 像 。 

e S 是 I 经 过 gtdecomp 函 数 处 理 的 结果 ，。 

e dim 是 指定 的 子 块 大 小 。 

e vals 是 dimxdimxk 的 三 维 矩 阵 ， 包 含 了 用 来 将 换 原 有 子 块 的 新 子 
块 信息 。 其 中 k 应 为 图 像 I 中 大 小 为 dimxdim 的 子 块 的 总 数 ，vals(:,:,i) 表 
示 要 蔡 换 的 第 i 个 子 块 。 

返回 值 

e J 是 经 过 子 块 蔡 换 的 新 图 像 。 

下 面 的 程序 根据 三 维 数组 newvals 中 的 内 容 蔡 换 给 定 图 像 I 中 的 所 有 

4x4 子 块 。 

和 人 








1 1 1 1 10 15 7 7 
1 1 1 1 20 25 7 7 
20 22 20 22 1 2 3 4 
20 22 22 20 5 6 7 8 
20 22 20 20 9 10 11 12 
22 22 20 20 13 14 15 16j: 
S = qtdecomp(L5); % 对 于 double 型 算 阵 I， 将 以 5 作为 闷 值 进行 四 文 
树 分 解 
newvals = cat(3,zeros(4),ones(4)); % 设 定 欲 蔡 换 的 子 块 内 容 
J] = qtsetblk(LS,4,newvals) % 根 据 newvals 中 的 内 容 蔡 换 I 中 大 小 为 4 的 
天 


0 0 0 0 20 25 7 7 
1 1 1 1 1 2 3 4 

1 1 1 1 5 6 7 8 

1 1 1 1 9 10 11 12 
1 1 1 1 13 14 15 16 


我 们 看 到 ，I 中 左 半 部 分 的 2 个 4x4 子 块 分 别 被 替换 为 0 子 块 和 1 子 块 
(J 的 左 半 部 分 )。 

注意 

sizeof(newvals,3) 必 须 和 I 中 指定 大 小 的 子 块 数目 相同 ， 否 则 qtsetblk 
会 提示 错误 信息 。 

一 个 区 域 分 割 的 综合 实例 如 例 11.3 所 示 。 

[ 例 11.3] 对 Matlab 示 例 图 片 rice.png 进 行 四 叉 树 分 解 ， 并 以 图 像 形式 
显示 所 得 的 稀 芯 矩阵 。 同 时 ， 取 得 所 有 子 块 和 符合 各 种 维度 条 件 的 子 块 
数目 。 

相应 的 Matlab 实 现代 码 如 下 。 

I1 = imread(Trice.png); % 读 入 原 图 像 

imshow(I1) % 得 到 图 11.22 (a) 

% 选 取 国 值 为 0.2， 对 原始 图 像 进行 四 又 树 分 解 

S = qtdecomp(I1,0.2); 

% 原 始 的 稀 玩 矩阵 转换 为 普通 和 矩阵， 使 用 full 疯 数 

S2 = full(S); 

figure; 

imshow(S2); % 得 到 图 11.22 (b) 

ct = Zeros(6, 1); % 记 录 子 块 数目 的 列 问 量 

% 分 别 获得 不 同 大 小 块 的 信息 ， 子 块 内 容 保存 在 三 维 数组 vals1 一 
val6 中 ， 子 块 数目 保存 在 ct 回 量 中 

forii= 1:6 











[valst{ii},r,c] = qtgetbjk(I1,32,2A(ii-1)); 
ct(ii) = size(vals{ii},3); 
end 


上 上述 程序 的 运行 结果 如 图 11.22 所 示 。 





(a) 原始 图 像 


A 图 11.22 四 又 树 分 解 算法 


11.6 基于 形态 学 分 水 岭 息 法 好 | 


在 第 10 章 ， 我 们 曾 学 习 了 形态 学 。 实 际 上 ， 形 态 学 也 可 以 应 用 到 图 
像 分 割 上 ， 而 且 通 常 它 生 成 的 分 割 结果 更 稳定 。 本 节 主 要 介绍 基于 形态 
学 分 水 岭 算 法 的 图 像 分 割 。 


11.6.1 形态 学 分 水 岭 算法 


所 谓 分 水 岭 算法 (watershed) ， 是 一 种 基于 拓扑 理论 的 形态 学 分 割 
方法 ， 其 基本 思想 是 把 图 像 看 作 是 测 地 学 上 的 拓扑 地 有 狐 ， 图 像 中 每 一 点 
像素 的 灰 度 值 表示 该 点 的 海拔 高 度 ， 高 谈 度 值 对 应 独 山峰 ， 低 灰 度 值 处 
对 应 着 山谷 。 每 一 个 局 部 极 小 值 及 其 影响 区 域 称 为 集 水 贫 ， 而 集 水 盆 的 





边界 则 形成 分 水 岭 。 

1. 算法 原理 

分 水 岭 的 概念 和 形成 可 以 通过 模拟 浸入 过 程 来 说 明 。 在 每 一 个 局 部 
极 小 值 表面 ， 刺 穿 一 个 小 孔 ， 然 后 把 整个 模型 慢 慢 浸入 水 中 ， 随 着 浸入 
的 加 深 ， 每 一 个 局 部 极 小 什 的 影响 域 慢 慢 向 外 扩展 ， ee 
处 构筑 大 坝 ， 即 形成 分 水 岭 ， 这 个 分 水 岭 就 是 我 们 要 求 的 边界 。 
程 如 图 11.3 所 示 。 
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a A (c) 形成 大 


(d) 开始 AN 视图 Ch 琵 成 大 的 视 医 








A 图 11.23 分 水 岭 算 法 示意 图 


图 11.23 所 示 是 模型 浸入 水 中 灰 度 值 的 截面 图 ， 说 明了 模型 浸入 水 
中 慢 慢 形成 分 水 岭 的 过 程 。 图 11.23 (a) 是 刚刚 浸入 水 中 时 ， 水 从 模型 
的 最 低洼 处 涌 入 ， 在 第 一 个 集 水 盆 处 慢 慢 上 升 ， 其 俯视 图 为 图 
11.23 (d) ; 图 11.23 (b)〉 是 当 模型 浸入 到 一 定 程度 时 ， 水 分 别 在 第 一 
个 和 第 二 个 集 水 盆 中 上 升 ， 其 俯视 图 如 图 11.23 〈e) 所 示 ;， 图 
11.23〈c) 是 当 第 一 、 二 个 集 水 盆 的 水 将 连 未 连 时 的 截面 图 ， 其 俯视 图 
为 图 11.23 〈f) ， 此 时 两 个 集 水 贫 的 边界 就 是 大 坝 ， 大 坝 的 边界 就 是 所 
要 求 的 分 割 线 ， 即 原始 图 像 的 边缘 。 

2， 实现 方法 

用 形态 学 来 实现 分 水 岭 分 割 算法 时 ， 先 利用 腐蚀 将 每 个 粒子 腐蚀 成 
一 个 点 而 不 消失 ， 再 利用 条 件 膨 胀 标 记 出 生长 出 的 粒子 (条 件 膨胀 就 是 








将 脱 胀 限制 在 原始 集合 内 ， 同 时 当 两 个 粒子 靠 得 很 近 时 不 能 有 连接 部 
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分 水 岭 分 割 方法 应 用 在 梯度 图 像 上 ,那么 集 水 处 在 理论 上 就 对 应 灰 
度 变 化 最 小 的 区 域 ,而 分 水 岭 就 对 应 灰 度 变化 相对 最 大 的 区 域 。 如 图 
11.24 所 示 ， 其 中 图 (d) 是 分 水 岭 登 加 在 原 图 上 的 图 像 。 













(a) 原 图 (b) 梯度 图 像 
(c) 梯度 图 的 分 水 岭 (d) 分 割 结果 


A 图 11.24 分 水 岭 算法 应 用 


3. 过 渡 分 割 问题 

分 水 岭 算法 对 微弱 边缘 具有 良好 的 响应 ， 能 够 得 到 封闭 连续 的 边 
缘 ， 这 为 分 析 图 像 的 区 域 特征 提供 了 很 大 的 便利 ， 也 是 其 同 其 他 分 割 算 
法 相 比 的 一 个 主要 优势 。 然 而 ， 分 水 岭 算 法 也 有 一 个 致命 的 弱点 ， 对 于 
边缘 的 强 响 应 使 其 对 噪声 和 物体 表面 细微 的 灰 度 变化 非常 敏感 ， 从 而 导 
致 常常 产生 过 度 分 割 结果 ， 如 图 11.25 所 示 。 





(b) 分 水 岭 


A 图 11.25 分 水 岭 算 法 的 过 度 分 割 


从 图 11.25 中 可 见 ， 原 本 完整 的 物体 却 被 分 割 成 了 很 多 更 细小 的 区 
域 ， 这 就 是 过 度 分 割 。 显 然 ， 这 是 我 们 所 不 希望 的 结果 ， 因 此 必须 采用 
某 些 方法 来 改进 分 水 岭 算法 。 

针对 这 个 问题 ， 有 很 多 种 改进 的 分 水 岭 分 割 技术 。 综 合 来 讲 ， 主 要 
有 以 下 3 关 :。 

(1) 在 应 用 分 水 岭 分 割 之 前 对 图 像 进行 一 些 预 处理 ， 诸 如 除 噪 、 
求 梯度 图 像 、 形 态 学 重 构 、 标 记 前 景 背景 等 ， 这 些 操作 的 目的 是 减少 小 
的 积 水 盆 ， 从 而 减少 过 分 割 区 域 的 数量 。 

(2) 分 割 时 添加 约束 ， 通 过 约束 条 件 来 限制 分 割 过 程 。 

(3) 在 应 用 分 水 岭 分 割 之 后 对 结果 图 像 进行 合并 处 理 。 如 果 初 始 
分 割 产生 过 多 小 区 域 ， 合 并 处 理会 具有 很 大 的 运算 量 ， 所 以 后 处 理 的 时 
间 复 杂 度 经 常 较 高 。 此 外 ， 合 并 准则 的 确定 也 是 一 件 比较 麻烦 的 事情 ， 





























通常 有 基于 相 邻 区 域 的 平均 灰 度 信息 和 边界 强度 信息 的 合并 准则 ， 不 同 
的 合并 准则 会 得 到 不 同 的 分 割 结 

图 11.26 所 示 为 准确 标记 的 分 水 岭 分 割 过 程 。 这 是 通过 合并 预 处 理 
步骤 来 限制 允许 存在 的 区 域 的 数目 。 一 个 标记 是 属于 一 幅 图 像 的 联通 分 
量 。 选 择 标记 时 ， 既 要 有 与 重要 对 象 相 联系 的 内 部 标记 ， 也 要 有 与 背景 
相 联 系 的 外 部 标记 。 一 般 来 说 ， 首 先 预 处 理 图 像 ， 然 后 定义 一 个 所 有 标 
记 必 须 满 足 的 准则 ， 即 定义 内 标记 和 外 标记 。 














(d) 标记 内 部 约束 ” ”(e) 由 标记 内 外 部 约束 重 构 的 梯度 图 (f) 分 割 结果 


A 图 11.26 准确 分 割 的 分 水 岭 算 法 过 程 


将 图 11.26 中 的 图 (f) 与 图 11.25 中 的 图 (c) 相 比 较 ， 显 然 ， 采 用 
准确 标记 的 分 水 岭 分 割 后 ， 图 像 中 物体 的 边界 得 到 准确 的 检测 ， 其 改善 
之 处 是 显而易见 的 。 





11.6.2 Matlab 实 现 


Matlab 中 提供 了 原始 的 分 水 岭 函 数 watershed， 这 个 函数 提供 了 基本 
的 分 水 岭 算 法 处 理 能 但 也 仅 限 于 此 。 因 此 ， 您 需要 事先 对 图 像 进 
行 必 要 的 处 理 ， 和 否则 ， 这 个 函数 返回 的 结果 将 会 是 很 显然 的 过 度 分 割 结 
果 。 我 们 首先 来 介绍 一 下 这 个 函数 。 

watershed 函 数 使 用 Fernand Meyer 算 法 对 输入 的 图 像 进行 分 水 岭 算 法 
的 处 理 ， 它 文 持 数值 矩阵 和 旭 辑 窍 阵 ， 但 不 文 持 稀 丽 格式 存储 的 窍 阵 。 
我 们 首先 介绍 这 个 函数 的 语法 : 

L = watershed(A) 

L = watershed(A, conn) 

参数 说 明 

eA 指定 需要 寻找 轮廓 的 原始 图 像 。 

e 可 选 参数 conn 指 定 分 水 岭 算法 将 要 考虑 的 邻 域 数 量 ， 对 于 二 维 图 
像 ， 这 个 值 可 以 为 4 或 者 8; 而 这 个 函数 也 可 以 处 理 三 维 图 像 ， 因 此 这 里 
可 以 有 不 同 的 取 值 。 

返回 值 

e 输出 的 窍 阵 A 中 数值 为 0 的 元 又 表明 不 属于 任何 一 个 划分 出 的 区 
域 ， 而 各 个 分 水 岭 分 割 出 的 区 域 被 用 不 同 的 序号 表示 。 输 出 的 矩阵 是 
double 类 型 ， 因 此 ， 如 果 要 做 一 个 简单 的 示例 ， 只 需要 直接 将 输出 的 年 
阵 使 用 imshow 函 数 显示 即 可 。 因 为 ， 数 值 为 0 的 元 素 显示 为 黑色 ， 而 其 
他 的 元 素 〈 属 于 某 个 分 区 的 元 素 〉 的 值 一 定 会 大 于 等 于 1， 因 此 会 显示 
为 白色 。 

因此 ， 我 们 首先 观察 下 面 例子 及 其 输出 图 11.27。 


>> i= imread('rice.png’); 























>> d = watershed(i); 
>> subplot(1,2,1); imshow(i); title(Source ); 
>> subplot(1,2,2); imshow(d); title(Destination ); 


Destination 
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A 图 11.27 Matlab 分 水 岭 算 法 示例 


很 显然 ， 我 们 得 到 了 一 个 严重 过 上 度 分 割 的 分 水 岭 算 法 结果 。 事 实 
上 ， 我 们 可 以 对 输入 图 像 进行 必要 的 前 期 处 理 以 避免 这 种 结果 。Matlab 
没有 直接 将 这 些 前 期 算法 内 置 到 watershed 函 数 中 ， 因 此 需要 我 们 手工 进 
行 这 些 操作 。 一 种 前 期 处 理 方法 是 将 网 像 转换 为 二 值 图 像 ， 再 进行 距离 
变换 。 

在 本 章 后 面 的 Matlab 综合 案例 一 节 ， 我 们 将 使 用 同样 的 一 个 例子 
进行 分 水 岭 算 法 的 处 理 ， 请 读者 可 从 中 体会 各 种 前 期 处 理 方法 的 效果 差 


别 。 





11.7 Matlab 综 合 案例 一 一 分 水 岭 算 Y 





前 文 提 到 的 单纯 的 分 水 岭 算法 存在 着 严重 的 过 度 分 割 问 题 ， 但 这 个 
算法 实质 上 是 一 种 很 有 效 的 图 像 分 割 方法 。 事实 上 ， 只 要 对 其 添加 必要 
的 前 期 处 理 步 又 ， 就 可 以 大 大 改善 处 理 的 效果 。 下 面 我 们 讲解 几 种 常用 
的 前 期 处 理 算 法 ， 请 注意 ， 算 法 中 的 参数 对 于 不 同 的 图 像 有 不 同 的 最 优 
值 ， 请 读者 自行 探索 调试 。 








1. 前 期 处 理 方法 : 二 值 图 像 距离 变换 

这 种 方法 将 源 图 像 首先 按照 闵 值 法 转换 为 二 值 图像 ， 然 后 对 二 值 图 
像 进行 距离 变换 。Matlab 中 执行 二 值 图 像 距离 变换 的 阔 数 是 pwdist。 距 
离 变 换 的 定义 很 简单 ， 束 是 将 图 像 中 的 每 个 像素 的 值 变换 为 这 个 像素 到 
离 它 距离 最 近 的 非 零 像素 的 距离 。 这 里 的 距离 是 按照 指定 的 距离 计算 方 
式 进 行 的 ， 通 常 为 8- 邻 域 概念 下 的 距离 度量。 很 显然 ， 在 这 种 定义 下 ， 
非 零 像素 的 距离 变换 值 将 为 0， 而 零 像素 的 距离 变换 值 将 为 非 零 值 。 我 
们 不 再 单独 详细 介绍 bwdist 函数 的 用 法 ， 请 读者 从 下 面 的 例子 中 自行 体 
会 。 如 果 理 解 存在 困难 ， 可 以 使 用 help bwdist 或 者 doc bwdist 命 令 获取 在 
线 帮 助 。 

在 下 面 的 例子 中 ， 我 们 还 是 使 用 相同 的 一 幅 示 例 图 片 ， 观 察 使 用 二 
值 化 图 像 距离 变换 进行 源 图 像 的 前 期 处 理 之 后 ， 分 水 岭 算法 的 处 理 效 
果 。 例 子 的 代码 如 下 。 


i = imread(Tice.png); 

















b = im2bw(i, graythresh(i)); 

bc = -b; 

d= bwdist(bc); 

| = watershed(-d); 

w = |1== 0; 

subplot(1,2,1); imshow!(i); title('Source'); 

subplot(1,2,2); imshow(w); title(Destination ); 

这 个 例子 的 运行 结果 如 图 11.28 所 示 ， 读 者 可 以 将 这 张 图 片 与 前 面 
的 过 上 度 分 割 结果 对 比 ， 这 里 的 差距 是 非常 明显 的 。 








Source Destination 





A 图 11.28 改善 的 分 水 岭 分 割 结果 


2. 前 期 处 理 方法 : 梯度 处 理 

这 种 前 期 处 理 方法 是 使 用 梯度 算 子 处 理 原始 的 灰 度 图 像 。 对 灰 度 图 
像 而 言 ， 在 图 像 中 物体 边缘 的 部 分 ， 梯 度 值 是 相对 更 大 的 ， 而 在 其 他 部 
分 的 梯度 值 都 相对 小 得 多 。 因 此 ， 对 使 用 梯度 算法 处 理 后 的 图 像 执 行 分 
水 岭 算法 处 理 得 到 的 结果 将 是 分 水 岭 线 存在 于 图 像 的 边缘 上 ， 从 而 将 图 
像 的 区 域 分 开 。 下 面 提供 一 个 例子 说 明 这 种 前 期 处 理 方法 。 

这 个 例子 使 用 前 文 提 到 的 Sobel 梯 上 度 算 子 对 图 像 进行 梯度 操作 。 使 
用 特定 算 子 对 图 像 进行 滤 镜 操作 的 函数 是 fspecial， 其 使 用 语法 为 

h = fspecial(type, Parameters) 

其 中 parameters 为 可 选 参数 ，type 为 滤 镜 名 称 ， 如 果 要 使 用 索 贝 尔 算 
子 进 行 梯度 滤 镜 操作 ， 则 type 的 值 应 为 'Sobel 。fspecial 函 数 返 回 一 个 可 
以 用 于 imfilter 函 数 的 滤 镜 。imfilter 函 数 用 于 对 N 维 图 像 进行 滤 镜 操作 ， 
其 语法 为 

B=imfilter(A,H,options...) 

其 中 HH 为 使 用 fspecial 函 数 指定 的 滤 镜 。 在 这 个 例子 中 ， 我 们 要 使 用 
imfilter 对 图 像 进行 索 贝 尔 梯度 滤波 。 于 是 ， 这 个 例子 的 算法 实现 如 下 。 


i= imread(Trice.png); 








h = fspecial('sobel'); 

id = im2double(i); 

g = sqrt(imfilter(id, h, replicate) .^ 2 + imfilter(id, h, replicate') .^ 2); 

] = watershed(g); 

w=1==0; 

subplot(1,2,1); imshow!(i); title('Source'); 

subplot(1,2,2); imshow(w); title(Destination ); 

本 例 的 处 理 结果 如 图 11.29 所 示 ， 可 见 ， 梯 度 算 法 并 不 一 定 比 二 值 
图 像 方法 更 好 ， 在 这 个 例子 中 就 出 现 了 明显 的 过 度 分 割 。 我 们 可 以 符 试 
改进 一 下 这 种 梯度 处 理 方法 ， 在 进行 梯度 算 子 处 理 之 前 应 用 图 像 平滑 处 
理 ， 这 样 束 可 以 尽量 减 小 梯度 算 子 对 图 像 品 声 的 放大 【正如 微分 运算 对 
高 频 噪声 的 放大 一 样 ) 。 


Source Destination 
上 





A 图 11.29 梯度 算法 预 处 理 的 分 水 岭 算 法 结果 


为 了 达到 平滑 图 像 的 目的 ， 我 们 可 以 在 加 载 图 像 和 应 用 梯度 滤 镜 之 
后 ， 对 图 像 进行 如 下 操作 。 
sm = imclose(imopen(g, ones(3,3)), ones(3,3)); 


这 样 ， 上 面 的 算法 就 变 为 


i = imread(Tice.png ); 

h = fspecial('sobel'); 

id = im2double(i); 

g = sqrt(imfilter(id, h, replicate’) .^ 2 + imfilter(id, h, replicate') .^ 2); 

sm = imclose(imopen(g, ones(3,3)), ones(3,3)); 

| = watershed(sm); 

w=1== 0; 

subplot(1,2,1); imshow!(i); title('Source'); 

subplot(1,2,2); imshow(w); title(Destination ); 

本 例 的 处 理 结果 如 图 11.30 所 示 ， 可 以 发 现 ， 过 度 分 割 的 情况 好 了 
一 些 ， 但 是 还 存在 一 定 的 问题 。 可 以 通过 调整 图 像 平 滑 算 法 中 的 矩阵 大 
小 来 改善 这 种 情况 。 事 实 上， 图 11.31 就 是 那 两 个 矩阵 的 大 小 是 7x7 的 情 
况 ， 可 以 看 到 过 度 分 割 的 情况 有 很 大 改善 。 














Source Destination 





A 图 11.30 使 用 5x5 大 小 模板 平滑 后 的 结果 


Source Destination 





A 图 11.31 使 用 7x7 模 板 平滑 后 的 结果 


3. 前 期 处 理 方法 : 标记 约束 

前 文 提 到 的 二 值 图 像 处 理 和 梯度 算 子 处 理 方法 都 存在 一 个 共同 的 缺 
点 ， 就 是 难以 对 图 像 中 的 噪声 产生 足够 的 抵抗 力 ， 因 而 很 容易 造成 图 像 
分 割 的 混乱 。 另 外 ， 这 两 种 方法 对 过 度 分 割 的 预防 均 不 其 完善 。 

为 此 ， 我 们 采用 了 标记 约束 的 分 水 岭 算法 。 很 完善 的 标记 算法 会 使 
程序 较为 复 森 ， 因 此 我 们 采用 一 个 较为 镜 蛙 的 示例 图 像 来 完成 这 个 例 
子 。 需 要 注意 的 是 ， 本 例 中 所 提供 的 程序 对 于 处 理 背 景 仅 有 噪声 而 没有 
明显 渐变 的 图 片 效 果 较 好 ， 同 时 ， 最 佳 状态 需要 是 背景 闫 色相 对 前 景 闫 
色 更 浅 。 这 个 例子 的 处 理 结果 如 图 11.32 所 示 。 


f = imread('test.tif'); 























subplot(2,2,1);imshow!(f);title('Source'); 

h = fspecial('sobel'); 

fd = double(f); 

g = sqrt(imfilter(fd, h, replicate’) .^ 2 + imfilter(fd, h, 'replicate') .^ 2); 
im = imextendedmin(f,50); 

fim = f; 


fim(im) = 0; 


subplot(2,2,2);imshow(fim);title(Marked Picture ); 

lim = watershed(bwdist(im)); 

em = lim == 0; 

£2 = imimposemin(g, im | em); 
subplot(2,2,3);imshow!(g2);title('Secondary Stage Input'); 
12 = watershed(g2); 

亿 =f; 

f2(12==0) = 0; 

subplot(2,2,4);imshow!(f{2);title('Final Result); 





Source Marked Picture 
Secondary Stage Input Final Result 
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和 图 11.32 使 用 标记 约束 方法 的 改善 情况 


下 面 再 给 出 一 个 对 rice 图 片 进行 分 水 岭 变 换 且 效果 相对 较 好 的 例 
子 。 例 11.4 给 出 了 Matlab 的 代码 实现 。 


[ 例 11.4] 基 于 分 水 岭 变换 的 米粒 图 像 分 割 。 

afm=imread('rice.png'); 

figure,imshow(afm); % 图 11.33 (a) 

se = strel ('disk', 15) ; 

Itop = imtophat (afm , se) ; 

figure , imshow( Itop , [ ]) ,title ( 'top - hat image); % 图 11.33 (b) 

Ibot = imbothat (afm , Se) ; 

figure , imshow!( Ibot , [ ]) ,title (bottom - hat image); % 图 11.33 (Cc) 

Ienhance = imsubtract (imadd ( Itop , afm) , Ibot) ; 

figure , imshow!( Ienhance) , title (‘original + top - hat - bottom - hat');% 
图 11.33 (qd) 

Iec = imcomplement ( Ienhance) ; 

figure , imshow( Iec) , title (complement of enhanced image); % 图 
11.33 (e) 

Iemin = imextendedmin( Iec , 22) ; 

figure , imshow( Iemin) , title (‘extended minima image’"); % 图 
11.33 (f) 

Iimpose = imimposemin ( Iec , Iemin) ; 

figure , imshow( Iimpose) , title ( 'imposed minima image'"); % 图 
11.33 (g) 

BW = watershed(ITimpose); 

Imshow(BW); % 图 11.33 (g) 

分 割 结果 如 图 11.33 所 示 。 


top - hat image 





(a) 原始 图 像 (b) 顶 帆 变换 
bottom - hat image original + top - hat - bottom - hat 
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(c) 底 帆 变换 (d) 补偿 后 的 图 像 


complementiof enhanced Image extend2ed minima image’ 


(e) 完整 增强 后 的 图 像 


imposed minima image 
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8) 将 (f) 反 相 的 结伙 


A 图 11.33 改进 的 分 水 岭 算法 分 割 结果 


11.8 小结 


图 像 分 割 问题 是 一 个 十 分 困难 的 问题 。 因 为 分 割 后 的 图 像 是 系统 上 
标的 一 个 函数 ， 所 以 根本 不 存在 理想 的 或 正确 的 分 割 。 

物体 及 其 组 成 部 件 的 二 维 表现 形式 受到 光照 条 件 、 透 视 畸 变 、 观 罕 
点 变化 、 谈 挡 等 的 影响 。 此 外 ， 物 体 及 其 组 成 部 件 与 背景 之 间 在 视觉 上 
可 能 是 无 法 区 分 的 。 因此， 人们 无 法 预测 能 够 从 图 像 中 抽取 出 哪些 与 物 
体 识别 相关 的 初始 信息 。 

唯一 可 以 肯定 的 事情 是 ， 这 一 过 程 将 在 本 质 上 具有 不 可 靠 性 。 某 些 
有 用 的 信息 能 够 被 抽取 出 ， 但 同时 也 会 出 现 许多 错误 。 因 此 ， 在 任何 应 
用 领域 中 都 不 存在 最 优 解 。 分 割 结果 的 好 坏 或 者 正确 与 否 ， 目 前 还 没有 
一 个 统一 的 评价 判断 标准 ， 大 都 从 分 割 的 视觉 效果 和 实际 的 应 用 场景 来 
判断 。 








第 12 音 地 征 日 


从 本 章 开始 ， 我 们 将 逐步 从 数字 图 像 处 理 同 图 像 识 别 过 渡 。 严 格 地 
说 ， 图 像 特征 提取 属于 网 像 分 析 的 范畴 ， 是 数字 图 像 处 理 的 高 级 阶段 ， 
同时 也 是 图 像 识 别 的 开始 。 

本 章 的 知识 和 技术 热点 

e 常用 的 基本 统计 特征 ， 如 周 长 、 面 积 、 均 值 等 区 域 描绘 子 ， 以 及 
直方 图 和 灰 度 共 现 矩阵 等 纹理 描绘 子 。 

e 主 成 份 分 析 (PCA, Principal Component Analysis) 。 

e 局 部 二 进 制 模式 (LBP, Local Binary Pattern ) 。 

本 章 的 典型 案例 分 析 

e 其 于 PCA 技 术 的 人 脸 数 据 集 的 降 维 处 理 。 


12.1 寺 征 概述 


众所周知 ， 计 算 机 是 不 认识 图 像 ， 只 认识 数字 的 。 为 了 使 计算 机 能 
够 “理解 ”图像 ， 从 而 具有 真正 意义 上 的 “视觉 ”， 本 章 中 我 们 研究 如 何 从 
图 像 中 提取 有 用 的 数据 或 信息 ， 得 到 图 像 的 “ 非 图 像 的 表示 或 描述 ， 如 
数值 、 向 量 和 符号 等 。 这 一 过 程 就 是 特征 提取 ， 而 提取 出 来 的 这 些 “ 非 
图 像 * 的 表示 或 搬 述 束 是 特征 。 有 了 这 些 数值 或 向 量 形式 的 特征 我 们 就 
可 以 通过 训练 过 程 教会 计算 机 如 何 懂 得 这 些 特征 ， 从 而 使 计算 机 具有 了 
识别 图 像 的 本 领 。 











12.1.1 什么 是 寺 征 


特征 是 某 一 类 对 象 区 别 于 其 他 类 对 象 的 相应 (本 质 〉 特 点 或 特性 ， 
或 这 些 特 点 和 特性 的 集合 。 特 征 是 通过 测量 或 处 理 能 够 抽取 的 数据 。 对 








于 图 像 而 言 ， 每 一 幅 图 像 都 具有 能 够 区 别 于 其 他 类 图 像 的 自身 特征 ， 有 
些 是 可 以 直观 地 感受 到 的 自然 特征 ， 如 亮度 、 边 缘 、 纹 理 和 色彩 等 ， 有 
些 则 是 需要 通过 变换 或 处 理 才能 得 到 的 ， 如 和 矩 、 直 方 图 以 及 主 成 分 等 。 


12.1.2 寺 征 的 分 类 


图 像 特征 的 分 类 有 多 种 标准 。 如 从 特征 目 身 的 特点 上 可 以 将 其 分 为 
两 大 类 : 描述 物体 外 形 的 形状 特征 ， 以 及 描述 物体 表面 灰 度 变化 的 纹理 
特征 。 而 从 特征 提取 所 采用 的 方法 上 我 们 又 可 以 将 特征 分 为 统计 特征 和 
结构 (句法 ) 特征 。 由 于 本 书后 面 的 图 像 识别 部 分 主要 着眼 于 统计 模式 
识别 ， 不 涉及 人 句法 模式 识别 的 其 体内 容 。 因 此 本 章 中 也 主要 讨论 图 像 的 
统计 特征 及 其 获取 方法 。 





12.1.3 特征 条 量 及 其 几何 解释 








我 们 常 肖 将 系 一 类 对 象 的 多 个 或 多 种 特性 组 合 在 一 起 ， 形 成 一 个 特 
征 问 量 来 代表 该 类 对 象 ， 如 果 只 有 时 个 数值 特征 ， 则 特征 向 量 为 一 个 一 
维 问 量 ; 如 果 是 n 个 特性 的 组 合 ， 则 为 一 个 n 维 特征 癌 量 。 该 特征 癌 量 常 
常 被 作为 识别 系统 的 输入 。 实 际 上 ， 一 个 n 维 特征 就 是 一 个 位 于 n 维 空间 
中 的 点 ， 而 识别 (分 类 ) 的 任务 就 是 找到 对 这 个 n 维 空间 的 一 种 划分 ， 
如 图 12.1 所 示 。 在 后 面 各 章 的 讨论 中 ， 一 般 将 竺 分 类 的 对 象 称 为 样本 ， 
将 其 特征 向 量 称 为 样本 特征 向 量 或 样本 问 量 。 











手 # 


“ey 
_: 
3 








本 
和 a 
> + 
四 ee 5 
es Bo 
i 





-1 1 RT 5 55 55 r 7 6 
(a) 三 维 空间 中 的 3 类 三 维特 征 向 量 样本 (b) 二 维 空间 中 的 3 类 二 维特 征 向 量 及 其 上 的 一 种 可 能 的 划分 








A 图 12.1 特征 同 量 的 几何 解释 


比如 说 我 们 要 区 分 3 种 不 同 的 总 尾 属 植 物 ， 可 以 选择 其 花 办 长 度 和 
花瓣 宽度 作为 特征 ， 这 样 就 以 1 个 三 维特 征 代表 1 个 植物 对 象 ， 比 如 
(5.1, 3.5) 。 如 果 再 加 上 莹 片 长 度 和 葛 片 宽度 ， 则 每 个 遍 尾 属 植物 对 象 
由 一 个 四 维特 征 疝 量 表示 ， 如 (5.1, 3.5, 1.4, 0.2) 。 











图 像 识别 实际 上 是 一 个 分 类 的 过 程 ， 为 了 识别 出 某 图 像 所 属 的 类 
别 ， 我 们 需要 将 它 与 其 他 不 同类 别 的 图 像 区 分 开 来 。 这 就 要 求 选 取 的 特 
征 不 仪 要 能 够 很 好 地 描述 图 人像， 更 重要 的 是 还 要 能 够 很 好 地 区 分 不 同类 
别 的 图 像 。 

我 们 希望 选择 那些 在 同类 图 像 之 间 差 异 较 小 ( 较 小 的 类 内 距 ) ， 在 
不 同类 别 的 图 像 之 间 差 异 较 大 〔 较 大 的 类 间距 ) 的 图 像 特征 。 我 们 称 之 
为 最 具有 区 分 能 力 (most discriminative) 的 特征 。 此 外 ， 在 特征 提取 中 
先 验 知识 扮演 着 重要 的 角色 ， 如 何 依靠 先 验 知识 来 帮助 我 们 选择 特征 也 
是 后 面 将 持续 关注 的 问题 。 

要 对 某 个 图 像 进行 分 类 ， 应 如 何 提取 该 图 像 的 特征 呢 ? 一 个 最 容易 
想到 的 方法 是 提取 图 像 中 所 有 像素 的 灰 度 值 作为 特征 ， 这 样 可 以 提供 尽 
可 能 多 的 信息 给 识别 程序 (分 类 器 〉， 让 分 类 器 具有 最 大 的 工作 上 自由 度 

















基于 神经 网 络 的 很 多 特征 提取 就 是 这 样 做 的 ， 见 第 14 章 ) 。 然 而 ， 高 
维度 意味 着 高 计算 复杂 度 ， 这 为 后 续 的 处 理 和 识别 带 来 了 巨大 的 困难 

〈 见 12.3.1 小 节 维 度 灾 难 ) 。 些 外， 很 多 时 候 由 于 我 们 已 经 掌握 了 有 关 
样本 图 像 的 茶 些 先 验 知识 ， 使 得 这 种 把 全 部 像素 信息 都 交 给 分 类 器 的 做 
法 显得 没有 必要 。 如 我 们 已 经 知道 星子、 肤色 、 面 部 轮廓 等 信息 与 表情 
关联 不 大 ， 那 么 在 表情 识别 中 吏 不 需要 人 脸 照 片 中 的 全 部 信息 。 可 以 只 
拿 出 眉毛 、 眼 睛 和 嘴 这 些 表情 区 域 作为 特征 提取 的 候选 区 ， 这 时 可 以 进 
一 步 在 表情 区 中 提取 统计 特征 。 

















一 般 来 说 ， 特 征 提取 应 具体 问题 具体 分 析 ， 其 评价 标准 具有 一 定 的 
主观 性 。 然 而 ， 还 是 有 一 些 可 供 遵 循 的 普 吉 原则 ， 能 够 作为 我 们 在 特征 
提取 实践 中 的 指导 。 总 结 如 下 。 

e 特征 应 当 容 易 提 取 。 换 句 话 说 ， 为 了 得 到 这 些 特 征 我 们 付出 的 代 
价 不 能 太 大 。 当 然 ， 这 还 要 与 特征 的 分 类 能 力 权 衡 考 虑 。 

e 选取 的 特征 应 对 噪声 和 不 相关 转换 不 敏感 。 例 如 要 识别 车 牌号 
码 ， 车 牌照 片 可 能 是 从 各 个 角度 拍摄 的 ， 而 我 们 关心 的 是 车 牌 上 字母 和 
数字 的 内 容 ， 因 此 就 需要 得 到 对 几何 失真 变形 等 转换 不 敏感 的 描绘 
从 而 得 到 旋转 不 变 ， 或 是 投影 失真 不 变 的 特征 。 

e 最 重要 的 一 点 ， 总 是 应 试图 寻找 最 具 区 分 能 力 的 特征 。 




















12.2 基本 统计 特征 


本 节 将 主要 介绍 一 些 第 用 的 基本 统计 特征 ， 包 括 一 些 简单 的 区 域 摘 
绘 子 、 直 方 图 及 其 统计 特征 ， 以 及 灰 度 共 现 矩 阵 等 。 这 些 特 征 具 有 简 
单 、 实 用 的 优势 ， 同 时 首先 学 习 它 们 将 有 助 于 读者 理解 统计 特征 的 特 


扩 ， 从 而 更 好 地 把 握 本 章 后 面 的 内 容 。 





在 经 过 图 像 分 割 得 到 各 种 我 们 感 兴趣 的 区 域 之 后 ， 可 以 利用 下 面 将 
要 介绍 的 一 些 简单 区 域 描绘 子 作为 代表 该 区 域 的 特征 。 通 常 将 这 些 区 域 
特征 组 合成 特征 同 量 以 供 分 类 使 用 。 

常用 的 简单 区 域 描绘 子 如 下 。 

e 周 长 : 区 域 边界 的 长 度 ， 即 位 于 区 域 边界 上 的 像素 数目 ; 

e 面积 : 区 域 中 的 像素 总 数 ; 

e 致密 性 : ( 周 长 )“ /面积 ; 

e 区 域 的 质心 ; 

e 灰 度 均值 : 区 域 中 所 有 像素 的 平均 值 ; 

e 灰 度 中 值 : 区 域 中 所 有 像素 的 排序 中 值 ; 

e 包含 区 域 的 最 小 矩形 ; 

e 最 小 或 最 大 灰 度 级 ; 

e 大 于 或 小 于 均值 的 像素 数 ; 

e 欧 拉 数 : 区 域 中 的 对 象 数 减 去 这 些 对 象 的 孔洞 数 。 

在 Matlab 中 ， 函 数 regionprops 是 用 于 计算 区 域 描 绘 子 的 有 利 工 具 ， 

D=regionprops(L, properties ); 

参数 说 明 

e 工 是 一 个 标记 和 窍 阵 ， 可 通过 10.3.4 小 节 介 绍 的 连通 区 标注 函数 
bwlabel 得 到 。 

e@ properties 可 以 是 一 个 用 逗号 分 割 的 字符 串 列表 ， 其 一 些 常 用 取 值 
如 表 12.1 所 示 。 








表 12.1 


合 法 值 含 义 








'Area' 区 域内 的 像素 总 数 

'BoundingBox' | 包含 区 域 的 最 小 第 形 。1X4 向 量 : [年 形 左上 角 x 坐 标 ， 托 形 左上 和 角 坐标 ，x 方向 长 度 ,，y 方向 长 度 ] 
'Centroid' 区 域 的 质心 。1X2 向 量 : [质心 xx 坐标， 质心 y 坐标 ] 

'ConvexHull' 包含 区 域 的 最 小 凸 多 边 形 。PX2 和 托 阵 : 每 一 行 包含 多 边 形 p 个 顶点 之 一 的 x 和 yy 坐标 
EquivDiameter | 和 区 域 有 着 相同 面积 的 圆 的 直径 





'EulerNumber' 区 域 中 的 对 象 数 减 去 这 些 对 象 的 孔洞 数 


返回 值 

e DD 是 一 个 长 度 为 max(L(:)) 的 结构 数组 ， 该 结构 的 域 表示 每 个 区 域 
的 不 同上 度量 ， 具 体 取决 于 properties 指 定 要 提取 的 度量 类 型 。 

[ 例 12.1] 利 用 regionprops 函 数据 取 简 单 的 区 域 特征 。 

如 要 提取 二 值 图 像 bw_mouth.bmp 中 每 个 区 域 的 面积 和 质心 作为 特 
征 ， 相 应 代码 如 下 。 

>> I= imread('../bw_mouth.bmp); % 读 入 二 值 图 像 ， 文 件 
bw_mouth.bmp 位 于 在 线 资 源 第 12 章 的 根 目 录 

中 

>> 了 = bwlabel0); % 标 注 连通 区 ， 得 到 标记 和 矩阵 IT 

>> D = regionprops(]1, 'area', 'centroid); % 提 取 面 积 和 质心 

>> D % 但 看 返回 的 结构 体 

国庆 一 


4x1 struct array with fields: 




















Area 

Centroid 
>> D.Area % 4 个 连通 区 域 的 面积 
ans = 

92 
ans = 

713 





qlls 一 








1 
>> v1 = [D.Area] % 将 面积 转 存 为 同 量 
v1 = 

9 2 713 11 


>> D.Centroid % 4 个 连通 区 域 的 质心 
ans = 

5.1304 31.4783 
ans = 

29.8597 21.6227 


ans 一 


10 36 
ans = 

63 36 
>> v2 = [D.Centroid] % 将 质心 转 存 为 向 量 
V2 = 


5.1304 31.4783 29.8597 21.6227 10.0000 36.0000 63.0000 36.0000 


12.2.2 直 福 其 统计 特征 





在 第 3 章 点 运算 中 ， 我 们 已 经 学 习 过 直方 图 的 概念 和 计算 方法 ， 当 


时 直方 图 更 多 的 是 作为 一 种 辅助 图 像 分 析 的 工具 。 这 里 则 要 将 直方 图 作 
为 图 像 纹理 描述 的 一 种 有 力 手段 ， 以 直方 图 及 其 统计 特征 作为 描述 图 像 
的 代表 性 特征 。 


首先 来 看 纹理 的 概念 。 纹 理 是 图 像 固 有 的 特征 之 一 ， 是 灰 度 (对 彩 


色 图 像 而 言 是 颜色 ) 在 空间 以 一 定 的 形式 变换 而 产生 的 图 案 〈 模 式 ) ， 
有 时 具有 一 定 的 周期 性 。 图 12.2 (d) 一 (f) 所 示 为 3 种 不 同 特点 的 纹 
理 : 金属 表面 的 平滑 纹理 、 龟 壳 表 面 的 粗糙 无 规则 纹理 ， 以 及 百叶 门 图 
像 中 具有 一 定 周期 性 的 纹理 。 既 然 纹 理 区 域 的 像素 灰 度 级 分 布 具有 一 定 
的 形式 ， 而 直方 图 正 是 描述 图 像 中 像素 灰 度 级 分 布 的 有 力 工具 ， 因 此 用 
直方 图 来 描述 纹理 就 顺理成章 了 。 

毫 无 疑问 ， 相 似 的 纹理 具有 相似 的 直方 图 ， 图 12.2 所 示 为 3 种 不 同 
特点 的 纹理 对 应 着 3 种 不 同 的 直方 图 。 这 说 明 直 方 图 与 纹理 之 间 存 在 着 
一 定 的 对 应 关系 。 因 此 ， 我 们 可 以 用 直方 图 或 其 统计 特征 作为 图 像 纹 理 
特征 。 直 方 图 本 映 就 是 一 个 同 量 ， 疝 量 的 维 数 是 直方 图 统计 的 灰 度 级 
数 ， 因 此 我 们 可 以 直接 以 此 向 量 作为 代表 图 像 纹理 的 样本 特征 向 量 ， 从 
而 交 给 分 类 器 处 理 ， 对 于 LBP 直 方 图 就 常常 这 样 处 理 〈 见 12.5 节 ) ; 为 
一 种 思路 是 进一步 从 直方 网 中 提取 出 能 够 很 好 地 描述 直方 图 的 统计 特 
征 ， 将 直方 图 的 这 些 统 计 特 征 组 合成 为 样本 特征 向 量 ， 这 样 做 的 好 处 是 
大 大 降低 了 特征 向 量 的 维 数 。 
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(a) 汽车 金属 表面 的 平滑 纹理 (b) 乌龟 壳 表 面 的 粗糙 无 规则 纹理 (ce) 百叶 门 图 像 呈现 出 的 具有 一 定 周期 性 的 纹理 
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(d) sub_texturel.bmp, (e) sub texture2.bmp; (f) Sub_texturel.bmp， 
(a) 中 纹理 区 域 的 放大 (b) 中 纹理 区 域 的 放大 (c) 中 纹理 区 域 的 放大 
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(g) (d) 的 直方 图 (h) (e) 的 直方 图 (i) (f) 的 直方 图 


4 图 12.2 三 种 不 同 特点 的 纹理 


直方 图 的 常用 统计 特征 包括 以 下 内 容 。 
(1) 均值 : 纹理 平均 亮度 的 度量 。 


> zih(z;) 


m= pe 或 m= 疗 一 一 (12-1) 


i Sue) 


式 中 : 工 是 灰 度 级 总 数 ， 表示 第 个 灰 度 级 ，P(zi) 是 归 一 化 直方 图 








灰 度 级 分 布 中 灰 度 为 zi 的 概率 ，h(zb 表 示 直 方 图 中 统计 的 灰 度 为 zi 的 像素 
个 数 《〈 不 需要 归 一 化 ) 。 
(2) 标准 方差 : 纹理 平均 对 比 度 的 度量 。 








Py (12-2) 





L-l 
>》 (2 一 m) pl(zi) 
i=0 

其 中 根 号 中 的 内 容 实 际 上 是 均值 的 二 阶 矩 p，,。 一 般 的 ， 均 值 m 的 n 阶 
和 矩 表示 为 


和 
Hn(2)= D(zi—m)" p(zi) (12-3) 
i=0 


(3) 平滑 度 : 纹理 腕 度 的 相对 平滑 度 度量 ， 对 于 灰 度 一 致 的 区 
域 ， 平 滑 度 R 等 于 1;， 对 于 灰 度 级 的 值 有 着 较 大 差异 的 区 域 ，R 等 于 0。 








1 
(1+0’) 


(4) 三 阶 窍 : 直方 图 偶 斜 性 的 度量 。 对 于 对 称 的 直方 图 ， 此 值 为 
0。 磊 为 正 值 ， 则 直方 图 器 右 偶 糙 ， 为 负 值 则 直方 图 同 左 俩 料 。 


路 (12-4) 














L-l . 
= 2 (zi—m) p(zi) (12-5) 


i=0 


(5) 一 致 性 : 当 区 域 中 所 有 灰 相 等 时 该 度量 最 大 并 由 此 处 开始 减 


小 。 


了 一 | 
区 (12-6) 


i=0 





(6) 精 : 随机 性 的 度量 。 炳 越 大 表明 随机 性 越 大 ， 信 息 量 也 就 越 
大 ; 反之 确定 性 越 大 ， 己 经 部 确定 的 当然 信息 量 就 越 小 。 这 里 给 出 烂 的 
定量 描述 为 





e = .本 p(zi)log» p(2z;) (12-7) 

一 个 由 均值 、 标 准 兰 、 平 滑 度 和 炳 组 合 而 成 的 特征 癌 量 如 V= 
(m,o,R,e)。 

应 认识 到 直方 图 及 其 统计 特征 是 一 种 区 分 能 力 相 对 较 弱 的 特征 ， 主 
要 是 由 于 直方 图 属于 一 阶 统计 特征 ， 而 像 直 方 图 、 均 值 这 样 的 一 阶 统 计 
特征 是 无 法 反映 纹理 结构 的 变化 的 。 直 方 图 与 纹理 的 对 应 关系 并 不 是 
对 一 的 : 首先 ， 不 同 的 纹理 可 能 具有 相同 或 相似 的 直方 图 ， 如 图 12.3 
所 示 的 两 种 截然 不 同 的 图 宁 束 具有 完全 相同 的 直方 图 ; 其 次 ， 即 便 是 两 
个 不 同 的 直方 图 ， 也 可 能 具有 相同 的 统计 特征 ， 如 均值 、 标 准 差 等 。 因 
此 ， 依 徘 丰 方 图 及 其 统计 特征 来 作为 分 类 特征 需要 特别 注意 。 


由 


A 图 12.3 具有 相同 直方 图 的 两 种 图 案 











12.2.3 灰 度 共 现 矩阵 


我 们 说 灰 度 直方 图 是 一 种 描述 单个 像 系 灰 度 分 布 的 一 阶 统 计量 ; 而 





灰 度 共 现 矩阵 描述 的 则 是 具有 某 种 空间 位 置 关 系 的 两 个 像素 的 联合 分 
布 ， 可 以 看 成 是 两 个 像素 灰 度 对 的 联合 直方 网 ， 是 一 种 二 阶 统计 量 。 

1. 理论 基础 

纹理 是 由 灰 度 分 布 在 空间 位 置 上 反复 交 蔡 变化 而 形成 的 ， 
像 中 具有 某 种 空间 位 置 关 系 的 两 个 像素 之 间 会 存在 一 定 的 灰 度 关系 ， 
种 关系 被 称 为 图 像 灰 度 的 空间 相关 特性 。 作 为 一 种 灰 度 的 联合 分 布 ， 。 
度 共 现 窍 阵 能 够 较 好 地 反映 这 种 灰 度 空间 相关 性 。 

我 们 通常 用 ps 表示 灰 度 共 现 和 矩阵， 如 果 灰 度 级 为 L， 则 ps 为 一 个 LxL 
的 方 阵 ， 其 中 的 某 个 元 素 ps(i,j) ,Gi, j = 0,1,2,...,L-1) 被 定义 为 具有 空间 位 
置 关 系 6=(D;,Dy)， 并 且 灰 度 分 别 为 和 j 的 两 个 像素 出 现 的 次 数 或 概率 
〈 归 一 化 ) ， 如 图 12.4 所 示 。 




















A 图 12.4 具有 空间 位 置 关 系 6 且 灰 度 分 别 为 i 和 j 的 两 个 像素 
常用 的 空间 位 置 关 系 5 有 水 平 、 竖 直 和 +45°*， 共 4 种 ， 如 图 12.5 所 





6=(D,,-D,)] 或 6=(-D,,D,)HD., =D, 6=(D.,D,)] 或 6=(-D.,-D,)HD. = 站 ， 
(Cc) +45° (d) -45° 





A 图 12.5 灰 度 共 现 矩阵 常用 的 4 种 空间 位 置 天 系 6 


一 旦 空间 位 置 天 系 6 确 定 后 ， 就 可 以 生成 一 定 6 下 的 灰 度 共 现 矩阵 
ps， 例 如 对 于 如 图 12.6 所 示 的 纹理 ， 其 距离 为 1 的 水 平和 +4° 灰 度 共 现 矩 
阵 如 下 所 示 。 


0 10 10 

Pl 0 10 
10 10 0 ，6=(+1,0)， 相 应 的 归 一 化 形式 为 

0 1/:6 1/6 


P=|1l/6 0 1/6 
1/6 1/6 0 


16 0 0 


P;=| 0 16 0 
0 0 18]，6=(1,-1)or6=(-1,1)， 相 应 的 归 一 化 形式 为 
8/23 QW 生 
| 本 5 和 
0 0 9/25 








(a) 纹理 图 像 的 放大 显示 (每 方 格 1 像素 ) (b) 图 (a) 对 应 的 像素 灰 度 和 矩阵 
A 图 12.6 图 像 litteTexture.bmp 的 纹理 像素 示意 图 


由 于 灰 度 共 现 矩阵 ps 总 共 含 有 LXL 个 元 素 ， 当 灰 度 级 L 比 较 大 时 它 
将 是 一 个 庞大 的 方 阵 。 如 对 于 一 般 的 256 灰 度 图 ，ps 就 是 一 个 256x256 的 
矩阵 ， 共 2 个 元 素 。 如 此 庞大 的 矩阵 将 使 得 后 续 的 计算 量 剧 增 。 因 此 
普通 灰 度 图 像 通 常 要 经 过 处 理 以 减少 灰 度 级 数 ， 而 后 再 计算 灰 度 共 现 矩 
阵 。 可 以 通过 分 析 纹 理 图 像 的 直方 图 ， 在 尽量 不 影响 纹理 质量 的 情况 
下 ， 进 行 适当 的 灰 度 变换 来 达到 灰 度 级 压缩 的 目的 。 

2. Matlab 实 现 

计算 灰 度 共 现 矩阵 的 Matlab 实 现代 码 如 下 ， 它 被 封装 在 金 羽 图 书 论 
坛 〈http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 "板块 与 本 书 同名 的 主题 
帖子 附件 第 12 章 的 code 文 件 夹 的 grayMat 函 数 文 件 中 。 

function grayMat = grayMat( I, nLevel, x1, y1, x2, y2 ) 








% 计算 图 像 I 的 灰 度 共 现 矩阵 

%I- 输 入 图 像 

% nLevel - 要 统计 的 灰 度 级 数目 

% x1, yl1, Xx2, y2 - 要 统计 的 空间 位 置 关系 

% 

% grayMat - 灰 度 共 现 矩阵， 大 小 为 nLevelxnLevel 
if nargin < 3 


xl = 1;% 默认 是 +45? 的 位 置 关 系 


yl = -1 

X2 = -1; 

Y=]; 
end 


% 对 工 进行 灰 度 级 划分 
minVal = min(I(:)); 
maxVal = max(1(:)); 
[m n] = size(D; 
if (maxVal - minVal + 1) >= nLevel 
span = doubleQmaxVal-minVal) / nLevel; 
ruler = double(minVal):span:double(maxVal); 
ind = find(I < ruler(2)); 
I2 = 9% I2 为 进行 灰 度 级 压缩 后 的 图 像 ， 灰 度 级 下 标 从 1 开始 
I2(ind) = 1; 
clear ind; 
for iLevel = 2:nLevel-1 
for 这 = 1:m 
for jj = 1:n 
if ( (1(ii, jj) >= ruler(iLevel)) && (I(ii, jj) < ruler(iLevel+1)) ) 


I2(ii, jj) = iLevel; 
end 
end 
end 
end 
ind = find(I >= ruler(nLevel)); 
I2(ind) = nLevel; 
clear ind; 
else 
error('hello’); 
end 
grayMat = zeros(nLevel, nLevel); 
% 计算 灰 度 共 现 矩阵 
forii = 1:m 
forjj = 1:n 
ii2 = ii+y1l; 
]j< =]]+xl; 
if( (ii2 >= 1) && (ii2<=m) &&(jj2>=1) &&(jj2<=n) ) 
grayMiat(I2(ii, jj), I2(ii2, jj2)) = grayMat(12(ii, jj), I2(ii2, jj2)) + 1; 
end 
ii2 = ii+y2; 
jj2 = j]+X2; 
if( (ii2 >= 1) && (ii2<=m) &&(jj2>=1) &&(jj2<=n) ) 
grayMiat(I2(ii, jj), I2(ii2, jj2)) = grayMat(I2(ii, jj), I2(ii2, jj2)) + 1; 
end 
end 


end 


下 面 给 出 一 个 利用 grayMat 函 数 计 算 灰 度 共 现 矩阵 的 调用 示例 。 

>> I=imread(‘../littleTexture.bmp’); 

>> gm = grayMat(l, 3) % 默 认 计算 +45" 位 置 关 系 的 空间 共 现 窍 阵 ， 灰 
度 级 为 3 

gm = 

16 0 0 

0 16 0 

0 0 18 

>> gm = grayMat(L 3, 1, 0, -1, 0) % 计 算 水 平 位 置 关 系 的 空间 贡献 值 
怎 阵 ， 灰 度 级 为 3 

gm = 

0 10 10 

10 0 10 

10 10 0 

同 获得 直方 图 特征 向 量 类 似 ， 我 们 可 以 直接 将 矩阵 ps 的 按 行 或 按 列 
存储 得 到 的 向 量 作 为 特征 同 量 。 但 由 于 p 通常 较 大 ， 更 多 的 时 候 我 们 也 
是 p 的 某 些 重要 的 统计 特征 (如 二 阶 秆 、 对 比 度 和 燃 等 ) 组 合成 为 特征 


回 量 。 











12.3 特征 降 维 
12.3.1 维度 灾难 
之 前 已 经 不 止 一 次 提 到 了 特征 向 量 的 维 数 过 高 会 增加 计算 的 复杂 
度 ， 给 后 续 的 分 类 的 问题 带 来 负担 。 实 际 上 维 数 过 高 的 特征 回 量 对 于 分 
类 性 能 (识别 京 ) 也 会 造成 负面 的 影响 。 直 观 上 通常 认为 样本 同 量 的 维 
数 越 高 ， 束 了 解 了 样本 更 多 方面 的 属性 ， 掌 握 了 更 多 的 情况 ， 应 该 对 提 





高 识别 率 有 利 。 然 而 ， 事 实 却 并 非 如 此 。 

如 图 12.7 所 示 ， 对 于 已 知 的 样本 数目 ， 存 在 着 一 个 特征 数目 的 最 
大 值 ， 当 实际 使 用 的 特征 数目 超过 这 个 最 大 值 时 ， 分 类 圳 的 性 能 不 是 得 
到 改善 ， 而 是 退化 。 这 种 现象 正 是 在 模式 识别 中 被 称 为 “维度 灾难 ”的 问 
题 的 一 种 表现 形式 。 例 如 ， 我 们 要 区 分 西瓜 和 冬瓜 ， 表 皮 的 纹理 和 长 宽 
比例 都 是 很 好 的 特征 ， 还 可 以 再 加 上 瓜 籽 的 颜色 以 辅助 判断 ， 然 而 继续 
加 入 重量 、 体 积 等 特征 可 能 是 无 瘟 的 ， 甚 至 还 会 对 分 类 造成 干扰 。 











A 图 12.7 识别 京 随 特征 维 数 的 变化 情况 


基于 以 上 上 所 述 的 原因 ， 降 维 惑 对 我 们 产生 了 巨大 的 吸引 力 。 在 低 维 
空间 中 计算 和 分 类 都 将 变 得 简单 很 多 ， 训 练 〈 教 授 分 类 器 如 何 区 分 不 同 
类 样本 的 过 程 ， 详 见 第 13 章 ) 所 需 的 样本 数目 也 会 大 大 降低 。 通 过 选择 
好 的 特征 ， 握 茎 坏 的 特征 (12.3.2 特征 选择 ) ， 将 有 助 于 分 类 器 性 能 的 
提升 。 在 通过 组 合 特征 降 维 时 ， 在 绝 大 多 数 情况 下 ， 丢 弃 菏 些 特征 捷 损 
失 的 信息 通过 在 低 维 空间 中 更 加 精确 的 映射 〈12.3.3 特 征 抽取 ) 可 以 得 
到 补偿 。 

有 共 体 地 说 ， 降 低 维 度 又 存在 着 两 种 方法 : 特征 选择 和 特征 抽取 。 如 








图 12.8 所 示 ， 特 征 选择 是 指 选择 全 部 特征 的 一 个 子 集 作 为 特征 癌 量 ; 
特征 抽取 是 指 通过 已 有 特征 的 组 合 建立 一 个 新 的 特征 子 集 ，12.3.2 小 节 
将 要 介绍 的 主 成 份 分 析 方 法 (principal component analysis，PCA) 就 是 
通过 原 特征 的 线性 组 合 建立 新 的 特征 子 集 的 一 种 特征 抽取 方法 。 
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和 图 12.8 特征 选择 和 特征 抽取 

12.3.2 特征 选择 简介 


重新 回 到 12.1.3 小 节 那 个 训 尾 属 植 物 的 问题 。 对 于 每 一 个 遍 尾 属 植 
物 样本 ， 总 共有 4 个 属性 可 以 使 用 一 一 花 斩 长度 、 花 办 宽 度 、 莹 厂 长 度 
和 萝 片 宽度 。 我 们 的 目的 是 从 中 选择 2 个 属性 组 成 特征 同 量 用 于 分 类 这 3 
类 总 尾 属 植物 。 

例 12.2 中 的 Matlab 程 序 选 择 了 不 同 的 特征 子 集 ， 并 给 出 了 在 对 应 特 
征 空 间 中 样本 分 布 的 可 视 化 表示 。 

[ 例 12.2] 选 择 不 同 特征 对 分 类 影响 的 可 视 化 分 析 。 

>> load fisheriris 9% 载 入 Matlab 自 带 的 韵尾 属 植物 数据 集 

>> data = [meas(:,1), meas(:,2)]; % 采 用 人 花 办 长 度 和 人 花 办 宽度 作为 特征 

>> figure 

>> scatter(data(1:50, 1), data(1:50, 2), b+") % 第 一 类 

hold on,scatter(data(51:100, 1), data(51:100, 2), 7*") % 第 二 类 

hold on,scatter(data(101:150, 1), data(101:150, 2), 'go') % 第 三 类 








>> data = [meas(:,1), meas(:,3)]; % 及 用 花 浙 长度 和 莹 厂 长 上 度 作为 特征 

>> figure 

>> scatter(data(1:50, 1), data(1:50, 2), b+'") % 第 一 类 

hold on,scatter(data(51:100, 1), data(51:100, 2), 7*") % 第 二 类 

hold on,scatter(data(101:150, 1), data(101:150, 2), 'go") % 第 三 类 

上 述 程序 的 运行 结果 如 图 12.9 所 示 。 从 图 12.9 中 可 见 选 择 不 同 的 特 
征 对 于 分 类 的 影响 有 多 么 的 严重 。 图 12.9 (a) 中 以 和 * 和 ‘oo? 所 代表 的 两 
类 样本 在 二 维 空间 一 一 花 淮 长度- 花 泊 宽度 中 互相 交 生 ， 很 难 区 分 ; 而 
在 图 12.9 (b) 中 ， 选 择 了 花瓣 长 度 和 莹 片 长 上 度 作为 特征 的 情况 下 ， 相 
对 变 得 容易 区 分 了 很 多 。 由 此 可 得 出 结论 : 对 于 分 类 3 种 高 尾 属 植物 这 
个 模式 识别 问题 ， 由 花瓣 长 度 和 莹 厂 长 上 度 组 成 的 特征 同 量 较 由 花 准 长度 
和 花 流 宽度 组 成 的 特征 癌 量 更 有 具 区 分 力 。 
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花 罗 长 度 F444 二 花 捧 长度 
了 | 1 > 1 | — 上 J 1 t+ | 1 L hn . L — | 
4 45 5 55 6 6.5 7 7 8 站 45 5 55 6 65 民 7.5 8 
(a) 采用 花 办 长 度 和 花 轩 宽度 作为 特征 (b) 采用 花 轩 长 度 和 划 片 长 度 作 为 特征 


A 图 12.9 3 类 不 同 的 芒 尾 属 植 物 的 150 个 样本 在 不 同 二 维特 征 空间 中 的 
分 布 情况 


12.3.3 主 成 分 分 


特征 抽取 有 是 指 通过 己 有 特征 的 组 合 〈 变 换 ) 建立 一 个 新 的 特征 子 








集 。 在 众多 的 组 合 方法 当中 ， 线 性 组 合 〈 变 换 ) 因 其 计算 简单 且 便于 解 
析 分 析 的 特点 而 显得 颇具 吸引 力 。 下 面 就 介绍 一 种 通过 特征 的 线性 组 合 
来 实现 降 维 的 方法 一 一 主 成 分 分 析 (Principal Conponent Analysis， 
PCA) 。PCA 的 实质 就 是 在 尽 可 能 好 地 代表 原始 数据 的 前 提 下 ， 通 过 线 
性 变换 将 高 维 空间 中 的 样本 数据 投影 到 低 维 空间 中 。 

1. 理论 基础 

主要 成 份 分 析 (PCA) 是 多 变量 分 析 中 最 老 的 技术 之 一 ， 它 来 源 于 通 
信和 理论 中 的 K-L 变 换 。1901 年 由 Pearson 第 一 次 提出 主要 成 分 分 析 方 法 ， 
直到 1963 年 Karhunan Loave 对 该 问题 的 归纳 经 历 了 多 次 修改 。 

e 问题 描述 

对 于 d 维 空间 中 的 n 个 样本 X1,*X2,...,X*n， 考 虑 如 何 能 在 低 维 空间 中 
最 好 地 代表 它们 。 

e 理论 推导 

(1) 0 维 时 的 情况 

让 我 们 首先 从 “ 零 ” 开 始 ， 即 考虑 在 0 维 空间 (一 个 点 ) 中， 如 何以 
一 个 d 维 向 量 X*0(d 维 空间 中 的 一 个 点 ) 来 表示 这 n 个 样本 ， 使 得 50 到 这 
n 个 样本 的 距离 平方 和 eo(X0) 最 小 ， 其 中 : 




















Eo(X0)= 2 || Xo —a | ( 12-8) 
i=) 


] 二 - 


本 m 六 
以 观 表 示 样 本 均值 ， 即 ”i= ， 则 有 


E0o(zo)= | (Xo —m)—(x—m) I 


i=] 
n nn n 
= 让 训 一 区 | 2》 (一 二 (一 所)+ 车 一 大 下 
i=l i=] i 


n 如 n 
= ?> 为 一 下 及 -2( 加 一 而 >》 ( 训 一 万 二 让 总 一 世上 | 
i=] i=] i=] 


n n 再 ] n 
Se > 一 111) = 二 一 天 .711 三 六 训 一 /1 一》 部 =0 
i=1 i=1 i=1 


下 i=1 





Eo( 和 o)= 中 加 一 天 上 二 中 训 一 世上 (12-9) 
i=] i=] 
由 于 第 二 项 与 Xo 无 关 ， 显 然 ，euo(xo 在 Xo= 灵 时 取得 最 小 值 。 这 一 


结论 表明 能 够 在 最 小 均 方 意义 下 最 好 地 代表 原来 的 n 个 样本 的 d 维 向 量 
就 是 这 n 个 样本 的 均值 。 换 言 之 ， 如 果 只 允许 以 d 维 空间 中 的 一 个 点 作为 
d 维 空间 中 原始 n 个 样本 点 的 代表 ， 这 个 点 就 是 这 n 个 样本 点 的 均值 。 

(2) 1 维 时 的 情况 

样本 均值 是 样本 数据 集 的 零 维 表达 (1 个 点 ) 。 它 非常 简单 ， 但 所 
有 样本 在 零 维 的 空间 中 都 被 压缩 到 了 同一 个 点 ， 因 此 无 法 反映 出 样本 之 
间 的 差异 ， 也 就 无 法 进行 分 类 。 为 使 样本 具有 可 分 区 性 ， 进 一 步 考虑 一 
维 〈d 维 空间 中 的 1 条 直线 ) 的 情况 ， 通 过 把 全 部 样本 向 通过 样本 均值 G 
殉 的 1 条 直线 作 垂 直 投影 ， 能 够 得 到 全 部 样本 的 一 维 表达 。 令 e 表示 这 条 
通过 均值 的 直线 的 单位 方向 向 量 ， 则 直线 方程 可 表示 为 











X=Mm+ae 








其 中 a 为 一 个 实数 的 标量 ， 表 示 直 线 上 某 个 点 离开 点 m 的 距离 。 
如 图 12.10 所 示 ， 我 们 以 样本 Xi 在 直线 上 é 的 垂直 投影 A 作为 Xi 的 
一 维 表达 ， 记 作 :+ =(A,)， 上 角 标 (1) 表 示 是 在 1 维 空间 中 的 表示 。 而 








Xi 三 所 +4i2 可 以 看 作 是 在 一 维 空间 (直线 e ) 中 ;的 近似 ， 由 垂直 
关系 可 知 


4i =|Xi—m|:cos(0) (12-10) 
由 于 6 是 向 量 xi 用 与 向 量 的 夹 角 ， 且 le i 上 E1， 故 上 式 可 表示 为 
a; =|—m|:|él|:cos(0)=E 0(x —m)= (2)" ( —m) (12-11) 


其 中 (E) 表示 E 的 转 置 。 





A 图 12.10 样本 的 一 维 表达 











关键 的 问题 就 是 如 何 确定 直线 的 最 优 方向 以 使 得 使 得 平方 误差 ej( 
2 ) 最 小 。 下 面 给 出 推导 过 程 。 


nn 天 
E(e)= (m+ae) -tl = ae (| 


i=] i=] 


人 Ws 六 
= ar 2 上 -2》4E (Bm)+ 2 由 总 一 区 上 | 
i=] i=] i=] 
将 式 (12-11) 代入 ， 得 
ni n nn 
Ei(e)= ar -2 a + 2- 坟 | 
i=] k=i i=] 
n 万 
了 一 人 一 ? 
= -par 二 | ei 
i=] i=] 
nn ~ n 
= 一 》(e (一 砚 )” + 中 总 一 雹 此 
i=] i=] 


n nn 
= 一 了 2T( 寺 一 次) 于 一 二 TE+ 了 中 名 一 顽 || 


i=] i=] 


LL in 
=-E (2》 (六 一 砚 )( 训 一 夸 ) 和 队 + >》 || 翅 一 页 直 
| | 


=-é SeE+ 2 lx ml 过 ) 


i=] 


S= 7》 人 ( 广 一 春 ( 二 一 而 
其 中 ，dxd 和 矩阵 ”I ， 称 为 散布 矩阵 (scatter 


matrix) ， 观 察 它 的 形式 不 难 发 现 ， 散 布 矩 阵 $ 实 际 上 是 样本 协 方差 矩阵 
的 n-1 倍 。 

在 式 〈12-12) 中 ， 第 二 项 与 6 无关， 显然 ， 要 想 让 el(E) 最 小 ， 就 
要 使 第 一 个 负 号 项 6 SE 最 大 。e "Se 的 最 大 化 是 一 个 带 有 约束 条 件 的 优 
化 问题 ， 可 以 采用 在 高 等 数学 中 的 拉 格 朗 日 乘 数 法 求解 ， 约 束 条 件 为 |e 








=1。 


令 7=e SE -4(2 “-1)， 其 中 为 拉 格 朗 日 乘 数 ， 通 过 对 E 求 偏 导 
并 令 偏 导 为 0， 得 


V1 











hy 
22526-2126=0= 52= 和 2 (12-13) 
OE 
式 〈12-13) 的 推导 中 用 到 了 和 矩阵 运算 的 结论 
ye 
Oe ， 因 散布 矩阵 为 对 称 阵 ， 故 有 
2 Pe 
Be (12-14) 
Ce 


式 〈12-13) 中 $ 为 一 个 d 阶 方 阵 ，E 是 一 个 d 维 向 量 ， 和 为 一 个 实数 。 
显然 ， 这 是 线性 代数 中 本 征 方 程 的 典型 形式 ， 和 是 本 征 值 ， 而 e 是 散布 矩 
阵 S 的 本 征 向 量 。 对 式 (12-13〉 稍 加 变形 ， 两 边 同时 左 乘 E ， 得 








ei'SE=Ae'e=A TAs 


至 此 ， 可 以 很 自然 地 得 出 结论 :为 了 最 大 化 E SE ， 应 当选 取 散 布 
ee 多 直线 E 的 方向 。 也 就 是 
说 ， 通 过 将 全 部 n 个 样本 X1,X2 ,xn 向 以 散布 矩阵 最 大 本 征 值 对 应 的 
的 
的 一 维 表示 Ai,A,,..,A,。 从 本 质 上 来 说 ， 这 个 投影 变换 实际 上 就 是 基 的 
转换 。 在 原来 的 d 维 空间 中 ，d 个 基 分 别 是 每 个 坐标 轴 方向 的 单位 矢量 
9 10=1,2,.…,n)， 空 间 中 的 某 个 样本 X 普 (并 ,并 轴 可 以 由 这 组 基 
表示 为 











d a 
= DO_xixg (12-16) 
k=] 


投影 至 直线 Ee 之后， 在 新 的 一 维 空间 中 (一 条 直线 ) ， 单 位 矢量 2 
成 为 了 唯一 的 1 个 基 ， 那 么 在 这 个 一 维 空间 中 的 某 个 样本 * 7 同样 可 以 由 
这 个 基 向 量 e 表示 为 








Ki'=Mm+ae (12-17) 


此 时 * i 就 是 原始 样本 Xi; 经 过 投影 变换 降 维 后 的 一 维 描述 。 注 意 到 
在 原来 的 d 维 空间 中 我 们 是 以 某 个 样本 *i 的 基 展 开 式 式 (12-16〉 中 基 的 
系数 来 表示 此 样本 X 志 (Xi, Xp Ia 。 同 样 在 一 维 空间 中 我 们 以 基 
E 的 系数 将 它 表示 为 一 维 向 量 X* /=(A;)。 

(3) 推广 至 d' 维 

上 述 的 结论 可 以 立刻 从 一 维 空间 (直线 ) 的 投影 推广 至 d 维 空间 
(d'-d) 的 投影 。 我 们 将 式 (12-17) 重 写 为 


二 
X=m+ 》 are (12-18) 
k=] 
新 的 平 法 误差 准则 函数 为 
万 , 在 加 
En(e,e,...,ed') = 2 (m 十 》 di ei) 一 区 | 
i=] 天王 ] 
容易 证 明 ej 在 向 量 e 1 ,E 2 ,ev 分 别 为 散布 矩阵 $ 的 前 d 个 〈 从 大 到 
小 ) 本 征 值 所 对 应 的 本 征 向 量 时 取得 最 小 值 。 因 为 散布 矩阵 $5 为 实 对 称 


和 矩阵， 因此 这 些 本 征 向 量 都 是 彼此 正 交 的 。 这 些 本 征 向 量 E 1 ,62,...,ed 
就 构成 了 在 低 维 空间 中 (d' 维 ) 中 的 一 组 基 向 量 ， 任 何 一 个 属于 此 d' 维 























空间 的 向 量 Xi1 均 可 由 这 组 基 表 示 。 


人 
= Dai (12-19) 


a = (Xm) = (Km) (12-20) 


式 〈12-19) 中 对 应 于 基 e 1 ,62 ,ez 的 系数 Aii,Aj,…,Aiy 被 称 作 
主 成 份 (principalcomponenb，&mnbsp;d 维 向 量 工 ， 区 =(AjsAj;ssAia) 即 为 
原样 本 在 由 基 向 量 2 1,22 ,2 所 张 成 的 d 维 空间 中 的 低 维 表示 ， 而 
实际 上 是 对 原样 本 Xi 的 一 种 近似 ， 且 近似 的 程度 随 着 的 增 大 而 增 
加 ， 这 一 过 程 可 以 看 作 是 对 原样 本 * ;的 重建 。 在 这 个 意义 上 ， 我 们 常 将 
式 〈12-20) 通过 投影 计算 系数 Aj 的 过 程 称 为 分 解 ， 而 将 式 (12-19) 在 
变换 空间 中 计算 Xi 的 过 程 称 为 重 构 。 

注意 到 上 面 这 些 内 容 和 傅立叶 变换 中 的 分 解 ( 傅 立 叶 变 换 ) 与 重 构 
(傅立叶 反 变换 ) 十 分 相似 ， 只 是 傅立叶 变换 中 的 基 是 sin 和 cos 形 式 的 
基 函 数 ， 而 这 里 的 基 则 是 基 矢 量 〈 向 量 ) 。 两 者 从 本 质 上 来 说 都 是 一 种 
基 或 者 说 是 坐标 系 的 变换 ， 分 解 过 程 就 是 要 将 原始 数据 或 函数 转换 到 新 
的 基 〈 坐 标 系 ) 下 ， 而 重建 过 程 就 是 利用 新 的 基 来 表示 原始 数据 或 函 
数 。 

2. 几何 解释 

从 多 元 统计 分 析 的 角度 来 看 ， 样 本 X1 ,X2 ,xn 在 原 d 维 空间 中 形 
成 了 一 个 d 维 椭 球 形状 的 云 团 ， 而 散布 矩阵 的 本 征 向 量 就 是 这 个 椭 球 的 
主轴 ， 如 图 12.11 所 示 。PCA 实 际 上 是 寻找 云 团 散布 最 大 的 那些 主轴 方 
向 ， 通 过 向 这 些 方向 向 量 所 张 成 的 空间 的 投影 达到 了 对 特征 空间 降 维 的 
目的 。 同 时 ， 从 图 12.11 中 不 难 发 现 ，PCA 投 影 转换 坐标 系 〈( 从 原来 的 















































$9 1- 作 ? 淮 标 系 转换 为 Ei-E ?从 标 系 ) 的 过 程 实际 上 也 是 去 除数 据 线性 
相关 性 的 过 程 ， 这 一 点 读者 可 以 通过 计算 PCA 变 换 前 后 样本 的 协 方差 抵 
阵 来 进行 验证 。 





A 图 12.11 二 维 空间 中 的 样本 椭 球 云 团 及 其 2 个 主轴 


3. PCA 计 算 

在 前 面 略 显 枯燥 的 理论 知识 之 后 ， 让 我 们 来 看 一 个 PCA 计 算 的 实 
例 ， 旨 在 帮助 读者 巩固 之 前 的 PCA 理 论 并 掌握 PCA 计 算 的 要 点 。 

[ 例 12.3] 主 成 分 计算 。 

计算 下 面 两 维 数据 集合 的 主要 成 份 分 量 ， 并 利用 PCA 方 法 将 数据 降 
至 一 维和 二 维 。 然 后 尝试 利用 1 个 和 2 个 主 成 份 实现 对 第 一 个 样本 的 重 
构 。 





= OD 0s 


(1) 计算 散布 矩阵 S 的 本 正 癌 量 

首先 计算 散布 矩阵 Ss (或 样本 协 方差 矩阵 ，n-1 倍 的 系数 不 会 影响 本 
征 回 量 的 计算 ) : 

样本 均值 丈 =(5,5) 


8 925; 4.23 
S =) (mi) -Am)" = 
>》 (x m)(xX; —1) 一 3 5 


i=] 


接 下 来 ， 我 们 解 式 


(12-13) 中 的 本 征 方程 。 
Se=ie=|$s-AIlée=0, 


0， 其 中 I 为 2x2 的 单位 矩阵 


6.25—1 4.25 
4.25 3.5—1 





展开 上 式 左 侧 的 行列 式 ， 最 终 解 得 
=9.34,4b =0.41 


再 将 入 和 和 ,分别 代入 式 (12-13) ， 解 得 : 1 =(0.81.0.59)7 ，e 2 = 
(-0.59,0.8DT 。 注 意 E ! 和 《2 是 彼此 正 交 的 单位 向 量 ， 如 图 12.12 所 示 。 
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A 图 12.12 样本 分 布 及 其 主轴 方向 


(2 降 至 二 维 
通过 将 8 个 样本 向 其 主轴 e 1 投影 ， 可 以 得 到 这 8 个 样本 点 的 一 维 表 


不 。 
一 了 /一 一 
根据 公式 : al =el (一 1)i=12,...,8， 得 


all = 一 3.01.a2 = 一 2.8,a3l = 一 1.02.a4i =—0.59,as1 = 0.59,a61 = 0.81, 
471 三 3.61,as] 三 党: 和 


从 而 1 维 表示 为 


Ee) =—5.01,7 x 一 < 8,x XW = .62,x XE = —0.59,x x = 0.59, x A) = 0.81, 
2 6LbE =501 


(3) 降 至 二 维 
类 似 的 ， 再 向 主轴 E 2 投影， 根据 4i2 = 人 ( 训 一 太 ),i=1,2,...,8 可 得 


al = —0.07,q23 = -0.44.a3 =1.18,a4 = —0.81,as = 0.81,462 = —0.59, 
CI72 一 —0.15, das2 =0.07 


从 而 2 维 表 示 为 


2 =(-5.01,—0.07),X(? =(—2.8,—0.44),*(2 =(—1.62,1.18), x =(-0.59,—0.81) , 
ee 


(4) 重 构 
如 果 仅 利用 第 1 个 主 成 分 分 量 实现 对 样本 XxX 1 的 近似 〔 重 构 )， 则 


Ni'=m+aner = (0.9419, 2.0441) 


近似 程度 可 以 用 Xi 与 原样 本 如 的 欧 氏 距离 来 衡量 。 





=0.0729 





dist@ 十 | 为 = 辐 'F VJG=-0.9419) +(2-2.0441)” 


利用 2 个 主 成 份 分 量 实现 对 样本 X1 的 近似 重 构 ) ， 得 


站 "= 击 +》 akak = (0.983 2,1.987 4) 
=] 


而 dist 仆 = 加 一 雇 "|= 0.021 
注意 到 dist(2<dist 了 D， 这 和 之 前 给 出 的 近似 程度 随 着 主 成 份 分 量 数目 


增 大 而 增加 的 结论 是 一 致 的 。 

4. 数据 表示 与 数据 分 类 

通过 PCA 降 维 后 的 数据 并 不 一 定 是 最 有 利于 分 类 的 ， 因 为 PCA 的 目 
的 是 在 低 维 空间 中 尽 可 能 好 地 表示 原 数 据 ， 确 切 地 说 是 在 最 小 均 方 差 意 
义 下 最 能 代表 原始 数据 。 而 这 一 目的 有 时 会 和 数据 分 类 的 初衷 相 违背 。 
图 12.13 说 明了 这 种 情况 ，PCA 投 影 后 数据 样本 得 到 了 最 小 均 方 意义 下 的 
最 好 保留 ， 但 在 降 维 后 的 一 维 空间 中 两 类 样本 变 得 非常 难以 区 分 。 图 
12.13 中 还 给 出 了 一 种 适合 于 分 类 的 投影 方案 ， 对 应 着 男 一 种 常用 的 降 
维 方 法 一 一 线性 判别 分 析 (inear discriminant analysis, LDA) 。PCA 寻 
找 的 是 能 够 有 效 表示 数据 的 主轴 方向 ， 而 LDA 则 是 寻找 用 来 有 效 分 类 的 
投影 方向 。 





























特征 1 
A 图 12.13 分 别 以 信号 表示 和 分 类 为 目的 的 降 维 


5. PCA 的 Matlab 实 现 

函数 princomp 实 现 了 对 PCA 的 封装 ， 其 和 贡 见 调用 形式 为 
[COEFF, SCORE,latent] = princomp(X); 

参数 说 明 


e X 为 原始 样本 组 成 npxd 的 矩阵 ， 其 每 一 行 是 一 个 样本 特征 向 量 ， 
一 列表 示 样 本 特征 向 量 的 一 维 。 i 2 中 的 问题 ，X 就 是 一 个 8x2 
A 总 共 8 个 样本 ， 每 个 样本 二 维 。 

返回 值 

eCOEFF: 主 成 分 分 量 ， 即 变换 空间 中 的 那些 基 向 量 e 
。 也 是 样本 协 方差 矩阵 的 本 征 向 量 。 

e SCORE: 主 成 分 ，X 的 低 维 表示 ， 即 X 中 的 数据 在 主 成 分 分 量 上 
的 投影 (可 根据 需要 取 前 面 几 列 的 ) ， 也 就 是 前 文 描述 中 的 系数 AijAil， 
ee 

e latent: 一 个 包含 着 样本 协 方差 矩阵 本 征 值 的 向 量 。 

作为 一 个 调用 实例 ， 我 们 利用 princomp 函 数 来 重新 完成 例 12.3， 相 
应 代码 如 下 。 

>> X = [1,2;3,3;3,5;5,4;5,6;6,5;8,7;9,8] % 样本 和 矩阵， 每 行 一 个 样本 向 
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>> [COEFF, SCORE, latent] = princomp(X); % 主 成 分 分 析 
>> COEFF % 主 成 份 分 量 〈 每 列 为 一 个 变换 空间 中 的 基 回 量 ) 
COEFF = 


0.8086 -0.5883 

0.5883 0.8086 

>> SCORE % 主 成 份 ，SCORE(:, 1) 为 X 的 一 维 表示 ，SCORE 为 X 在 
变换 空间 中 的 二 维 表示 

SCORE = 

-4.9995 -0.0728 

-2.7939 -0.4407 

-1.6173 1.1766 

-0.5883 -0.8086 

0.5883 0.8086 

0.8086 -0.5883 

3.6025 -0.1476 

4.9995 0.0728 

>> latent % X 样 本 协 方差 矩阵 的 本 征 值 

latent = 

10.6764 

0.4664 





12.3.4 快速 PCA 及 其 实现 





PCA 的 计算 中 最 主要 的 工作 量 是 计算 样本 协 方差 矩阵 的 本 征 值 和 本 
征 向 量 。 设 样本 矩阵 X 大 小 为 nxd (Cn 个 d 维 样本 特征 向 量 ) ， 则 样本 散 
布 阜 阵 〈 协 方差 矩阵 ) S 将 是 一 个 dxd 的 方 阵 ， 故 当 维 数 d 较 大 时 计算 复 
杂 度 会 非常 高 。 例 如 当 维 数 d=10 000，S 是 一 个 10 000x10 000 的 矩阵 ， 
此 时 如 果 采 用 上 面 的 princomp 水 数 计算 主 成 份 ，Matlab 通 常会 出 现 内 存 
耗 尽 的 错误 ， 即 使 有 足够 多 的 内 存 ， 要 得 到 $ 的 全 部 本 征 值 可 能 也 要 人 花 
费 数 小 时 的 时 间 。 


1. 理论 基础 

幸运 的 是 ， 对 于 这 样 的 问题 我 们 并 非 束 手 无 策 。 有 一 个 非常 好 的 
PCA 加 速 技巧 可 以 用 来 计算 矩阵 S 非 零 本 征 值 所 对 应 的 本 征 同 量 。 设 zaq 
为 样本 矩阵 X 中 的 每 个 样本 减 去 样本 均值 严 后 得 到 的 和 矩阵， 则 散布 矩阵 $S 
为 (ZIZ)uxa。 现 在 考虑 矩阵 R =(ZZ 了 ) ws， 一 般 情况 下 由 于 样本 数目 n 远 远 
小 于 样本 维 数 d，R 的 尺寸 也 远 远 小 于 散布 矩阵 5， 然 而 ， 它 与 有 着 相 
同 的 非 零 本 征 值 。 

设 n 维 列 向 量 v 是 R 的 本 征 向 量 ， 则 有 














(ZZ = 的， 


式 〈12-21) 两 边 同 时 左 乘 ZI ， 并 应 用 和 矩阵 乘法 的 结合 律 得 
(ZZ)(Z'Y)=A(Z'Y) EY 


式 (12-22) 说 明 Z… 为 散布 矩阵 S=(ZTZ)dxa 的 特征 值 。 这 说 明 可 以 
计算 小 矩阵 R=(ZZD,。 的 本 征 向 量 ”， 而 后 通过 左 乘 ZT 得 到 散布 矩阵 S= 
(ZTZ)dxa 的 本 征 向 量 Z ”。 

2. Matlab 实 现 

我 们 编写 了 fastPCA 函 数 用 来 对 样本 矩阵 A 进行 快速 主 成 分 分 析 和 降 
维 ( 降 至 k 维 ) ， 其 输出 pcaA 为 降 维 后 的 k 维 样本 特征 癌 量 组 成 的 矩阵 ， 
每 行 一 个 样本 ， 列 数 k 为 降 维 后 的 样本 特征 维 数 ， 相 当 于 princomp 函 数 
中 的 输出 SCORE， 而 输出 V 为 主 成 分 分 量 ， 即 princomp 函 数 中 的 输出 
COEFF。 

fastPCA 函 数 的 实现 代码 如 下 。 

function [pcaA V] = fastPCA( A,k) 

% 快速 PCA 





% 
% 输入 : A --- 样本 矩阵 ， 每 行为 一 个 样本 
% kk--- 降 维 至 k 维 
% 
% 输出 : pcaA --- 降 维 后 的 k 维 样本 特征 同 量 组 成 的 矩阵 ， 每 行 一 
个 样本 ， 列 数 为 降 维 后 的 样本 特征 维 数 
% ”VV --- 主 成 分 向 量 
[r c] = size(A); 
% 样本 均值 
meanVec = mean(A); 
% 计算 协 方差 矩阵 的 转 置 covMatT 
Z=(A-repmat(meanVec, 1, 1)); 
covMatT =Z* 
% 计算 covMatT 的 前 k 个 本 征 值 和 本 征 癌 量 
[V D] = eigs(covMatT, k); 
% 得 到 协 方差 矩阵 (covMatT)' 的 本 征 向 量 
V=Z'*Y, 
% 本 征 问 量 归 一 化 为 单位 本 征 问 量 
for i=1:k 
V(:,i)=V(:,i)/norm(V(:,i)); 
end 
% 线性 变换 《投影 ) 降 维 至 k 维 
pcaA =Z*YV, 
% 保存 变换 矩阵 V 和 变换 原点 meanVec 
save('Mat/PCA.mat', 'V', meanVec'); 
fastPCA 的 实现 中 调用 了 Matlab 库 函数 eigs 来 计算 矩阵 R=(ZZ1T )i x 
的 前 k 个 本 征 向 量 ， 即 对 应 于 最 大 的 k 个 本 征 值 的 本 征 同 量 ， 其 调用 形式 








[V, D] = eigs(R, k) 

参数 说 明 

R 为 要 计算 本 征 值 和 本 征 向 量 的 矩阵 。 

k 为 要 计算 的 本 征 向 量 数目 。 

返回 值 

e 输出 矩阵 wx 的 每 列 对 应 1 个 本 征 向 量 ，k 个 本 征 向 量 从 左 到 右 排 
列 。 

e 对 角 和 拖 阵 Dll 对 角 线 上 的 每 个 元 素 对 应 一 个 本 征 值 。 

在 得 到 包含 R 的 特征 向 量 的 矩阵 V 之 后 ， 为 计算 散布 矩阵 S 的 本 征 向 
量 ， 只 需 计 算 ZTVdxk。 此 外 ， 还 应 注意 PCA 中 需要 的 是 具有 单位 长 度 
的 本 征 癌 量 ， 故 最 后 要 除 以 该 同 量 的 模 ， 从 而 将 正 交 本 征 问 量 归 一 化 为 
单位 正 交 本 征 向 量 。 

这 里 建议 读者 找 一 个 维 数 较 高 的 数据 集 ， 分 别 利 用 princomp 和 
fastPCA 进 行 PCA 计 算 并 比较 它们 的 效率 。 在 下 一 节 关 于 人 脸 特征 抽取 
的 高 级 应 用 实例 中 ， 我 们 将 使 用 fastPCA 对 超过 10 000 维 的 人 脸 样 本 珑 
阵 进 行 主 成 分 分 析 。 


























12.4 综合 案例 一 ”基于 PCA 的 人 脸 特 征 





本 市 我 们 将 应 用 PCA 技 术 来 抽取 人 脸 特 征 。 一 幅 人 脸 照 三 往 往 由 比 
较 多 的 像素 构成 ， 如 果 以 每 个 像素 作为 一 维特 征 ， 将 得 到 一 个 维 数 非常 
高 的 特征 向 量 ， 计 算 将 十 分 困难 ;而 且 这 些 像 素 之 间 通 常 是 具有 相关 性 
的 。 这 样 ， 利 用 PCA 技 术 在 降低 维 数 的 同时 在 一 定 程度 上 去 除 原 始 特征 
各 维 之 间 的 相关 性 自然 成 为 了 一 个 比较 理想 的 方案 。 

下 面 介 绍 这 个 应 用 案例 的 实现 及 其 相关 问题 。 本 市 后 面 将 出 现 的 
Matlab 实 现代 码 都 被 封装 在 PCA_ORL 工 具 箱 中 ， 读 者 可 在 金 羽 图 书 论 





坛 (http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 "板块 与 本 书 同名 的 主题 
帖子 附件 第 12 章 的 code 文 件 夹 中 找到 。 


本 案例 采用 的 数据 集 来 自 著名 的 ORL 人 脸 库 [6]。 首 先 对 该 人 脸 库 做 
一 个 简单 的 介绍 。 

e ORL 数 据 库 共有 400 幅 人 脸 图 像 (40 人 ， 每 人 10 幅 ， 大 小 为 
112x92 像 素 ) 。 

e 这 个 数据 库 比 较 规 范 ， 大 多 数 图 像 的 光照 方向 和 强度 都 差不多 。 

e 有 少许 表情 、 姿 势 、 伸 缩 的 变化 ， 眼 睛 对 得 不 是 很 准 ， 尺 度 差 异 
在 10% 左 右 。 

e 并 不 是 每 个 人 都 有 所 有 的 这 些 变化 的 图 像 ， 即 有 些 人 姿势 变化 多 
一 点 ， 有 些 人 表情 变化 多 一 点 ， 有 些 还 戴 有 眼镜 ， 但 这 些 变化 都 并 不 大 


ORL 人 脸 库 中 第 1 个 人 的 一 些 人 脸 图 像 如 图 12.14 所 示 。 





A 图 12.14 ORL 中 第 1 个 人 的 8 幅 人 脸 图 片 


正 是 基于 ORL 人 脸 库 图 像 在 光照 ， 以 及 关键 点 如 眼睛 、 嘴 巴 的 位 置 
等 方面 比较 规范 的 特点 ， 实 验 可 以 在 该 图 片 集 上 直接 展开 ， 而 不 是 必须 
要 进行 归 一 化 和 校准 等 工作 。 读 者 可 以 在 
http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html 上 下 载 
ORL 人 脸 数 据 库 。 这 里 我 们 选用 每 个 人 的 前 5 张 图 片 作为 实验 的 数据 
集 ， 这 样 40 个 人 共 200 幅 样本 图 像 。 


12.4.2 生成 样本 和 矩阵 


首先 要 做 的 是 将 这 200 幅 人 脸 图 像 转换 为 向 量 形式 ， 进 而 组 成 样本 
窍 阵 。 函 数 ReadFaces() 用 于 完成 这 一 任务 。 

ReadFaces() 依 次 读 入 样本 图 像 ( 假 定 40 个 人 的 样本 图 像 位 
于 “Data/ORL/” 路 径 下 ， 如 第 18 个 人 的 10 幅 图 像 位 
于 “Data/ORL/S18” 中 ) ， 然 后 将 112x92 的 图 像 按 列 存储 为 一 个 10304 维 
的 行 癌 量 作 为 样本 矩阵 FaceContainer 中 的 一 个 样本 (一 行 )， 最 后 将 
样本 矩阵 保存 至 Mat 目录 下 的 FaceMat.mat 文 件 。 函 数 的 具体 实现 如 
Ps 

function 
[imgRow,imgCol,FaceContainer,faceLabel]=ReadFaces(nFacesPerPerson, 
nPerson, 

bTest) 

% 读 入 ORL 人 脸 库 的 指定 数目 的 人 脸 前 前 五 张 (训练 ) 

% 

% 输入 : nFacesPerPerson --- 每 个 人 需要 恋 入 的 样本 数 ， 默 认 值 为 5 

9% ”npPerson --- 需要 读 入 的 人 数 ， 默 认为 全 部 40 个 人 


% ”bTest --- bool 型 的 参数 。 默 认为 0， 表 示 恋 入 训练 样本 《前 5 
张 ) ;如果 为 1， 表 示 读 入 测试 样本 《后 5 张 ) 
% 
% 输出 : FaceContainer --- 向 量化 人 脸 容 器 ，nPerson* 10304 的 2 
维和 矩阵 ， 每 行 对 应 一 个 人 脸 癌 量 
if nargin==0 %default value 
nFacesPerPerson=5;% 前 5 张 用 于 训练 
nPerson=40;% 要 读 入 的 人 数 〈 每 人 共 10 张 ， 前 5 张 用 于 训练 ) 


bTest = 0; 
elseif nargin < 3 
bTest = 0; 

end 


img=imread('Data/ORL/S1/1.pgm'");% 为 计算 尺寸 先 读 入 一 张 
[imgRow,imgCol]=size(img); 
FaceContainer = zeros(nFacesPerPerson*nPerson, imgRow*imgCo}l); 
faceLabel = zeros(nFacesPerPerson*nPerson, 1); 
% 读 入 训练 数据 
for i=1:nPerson 

i1=mod(i,10); % 个 位 

i0=char(i/10); 

strPath='Data/ORL/S'; 

if( i0~=0 ) 

strPath=strcat(strPath,'0'+i0); 

end 
strPath=strcat(strPath,'0'+i1); 
strPath=strcat(strPath,'/"); 
tempStrPath=strPath:; 


for j=1:nFacesPerPerson 
strPath=tempStrPath; 
if bTest == 0 % 读 入 训练 数据 
strPath = strcat(strPath, '0'+]j); 
else 
strPath = strcat(strPath, num2str(5+j)); 
end 
strPath=strcat(strPath,'.pgm'); 
img=imread(strPath); 
% 把 读 入 的 图 像 按 列 存储 为 行 回 量 放 入 向 量化 人 脸 容 右 
faceContainer 的 对 应 行 中 


FaceContainer((i-1)*nFacesPerPerson+]j, :) = img(:)'; 





faceLabel((i-1)*nFacesPerPerson+j) = i; 
end 9%6 j 
end %i 


9% 保存 人 脸 样 本 窍 阵 


save('Mat/FaceMat.mat', 'FaceContainer') 


12.4.3 证 成 分 分 


经 过 上 面 的 处 理 ， 和 矩阵 FaceContainter 每 一 行 就 成 了 一 个 代表 某 个 人 
脸 样 本 的 特征 同 量 。 通 过 主 成 分 分 析 的 方法 可 将 这 些 10 304 维 的 样本 特 
征 问 量 降 至 20 维 。 这 样 数据 集中 每 个 人 脸 样 本 都 可 以 由 一 个 20 维 的 特征 
癌 量 来 表示 ， 以 作为 后 续 分 类 所 采用 的 特征 。 在 本 书 的 第 15 间 中， 我 们 
将 在 本 节 工 作 的 基础 上 采用 文 持 同 量 机 (SVM) 对 这 些 20 维 的 人 脸 样本 
进行 分 类 ， 从 而 实现 一 个 简单 的 人 脸 识 别 系统 。 

我 们 将 对 样本 矩阵 FaceContainer 进 行 主 成 份 分 析 的 整个 过 程 封装 在 


下 面 的 main 函 数 中 ， 其 参数 k 是 主 分 量 的 数目 ， 即 降 维 至 k 维 。 该 函数 
首先 调用 ReadFaces 函数 得 到 了 人 脸 样本 矩阵 FaceContainer， 而 后 利用 
12.3.4 小 节 中 的 fastPCA 算法 计算 出 样本 矩阵 的 低 维 表 示 LowDimFaces 
和 主 成 份 分 量 和 矩阵 WwW 并 将 LowDimFaces 保 存 至 Mat 目 录 下 的 
LowDimFaces.mat 文 件 中 。 





function main(k) 

% ORL 人 脸 数 据 集 的 主 成 分 分 析 

% 

% 输入 : k --- 降 至 k 维 

% 定义 图 像 高 、 宽 的 全 局 变量 imgRow 和 imgCol， 它 们 在 


ReadFaces 中 被 赋值 


global imgRow; 

global imgCol; 

% 读 入 每 个 人 的 前 5 副 图 像 
nPerson=40; 


nFacesPerPerson = 5; 

display( 读 入 人 脸 数 据 ..."); 
[imgRow,imgCol,FaceContainer,faceLabel]=ReadFaces(nFacesPerPerso 
display( '); 

nFaces=size(FaceContainer,1);% 样 本 (人 脸 〉 数 上 日 
display(PCA 降 维 ..."); 

% LowDimFaces 是 200*20 的 矩阵 , 每 一 行 代表 一 张 主 成 分 脸 ( 共 40 
每 人 5 张 )， 每 个 脸 20 个 维特 征 

% W 是 分 离 变 换 矩 阵 , 10304*20 的 矩阵 

[LowDimFaces, W] = fastPCA(FaceContainer, 20); % 主 成 分 分 析 PCA 
visualize_pc(W);% 显 示 主 成 分 脸 


save('Mat/LowDimFaces.mat', LowDimFaces'); 





display(" 计 算 结 束 。); 

通过 下 面 的 命令 可 以 完成 的 对 main 函 数 的 调用 ， 将 人 脸 样 本 向 量 降 
至 20 维 。 

% 将 工程 所 在 文件 夹 PCA_ORL 添 加 到 系统 路 径 列 表 

>> addpath(genpath('F:\doctor research\Matlab 
Work\ebook\PCA_ORL'")) % 换 成 您 自己 的 PCA_ORL 

绝对 路 径 

>> main(20) % 提 取 前 20 个 主 成 分 ， 即 降 至 20 维 

上 述 命令 运行 后 会 在 Mat 目录 下 生成 LowDimFaces.mat 文件 ， 其 
中 的 200x20 维 窍 阵 LowDimFaces 是 经 过 PCA 降 维 后 ， 原 样本 矩阵 
FaceContainer 的 低 维 表示 。200 个 人 脸 样 本 所 对 应 的 每 一 个 特征 同 量 由 
原来 的 10 304 维 变 成 了 20 维 ， 这 束 将 后 续 的 分 类 问题 变 为 了 一 个 在 20 
维 空间 中 的 划分 问题 ， 大 大 得 到 了 人 简化。 


12.4.4 主 成 分 脸 可 视 化 分 


fastPCA 函 数 的 男 一 个 输出 为 主 分 量 阵 W， 它 是 一 个 10 304x20 的 和 矩 
阵 ， 每 列 是 一 个 10 304 维 的 主 分 量 ( 样 本 协 方差 矩阵 的 本 征 向 量 ) ， 在 
人 脸 分 析 中 ， 习 惯 称 之 为 主 成 份 脸 。 事 实 上 我 们 可 以 将 这 些 列 同 量 以 
112x92 的 分 辨 率 来 显示 ， 该 工作 由 函数 visualize_pc 完 成 ， 实 现 如 下 。 

function visualize_pc(E) 

% 显示 主 成 分 分 量 〈 主 成 分 脸 ， 即 变换 空间 中 的 基 癌 量 ) 

% 

% 输入 : E --- 和 滤 阵 ， 每 一 列 是 一 个 主 成 分 分 量 

[sizel size2] = size(E); 

global imgRow; 

global imgCol; 


row = imgRow; 
col = imgCol; 
if size2 ~= 20 
error(' 只 用 于 显示 20 个 主 成 份 ); 
end; 
figure 
img = zeros(row, col); 
forii= 1:20 
img(:) = E(:, ii); 
subplot(4, 5, ii); 
imshow(img, []); 
end 
上 上述 程 序 运 行 后 ，20 个 主 成 分 脸 如 图 12.15 所 示 。 从 图 12.15 中 不 难 
理解 为 什么 主 分 量 会 被 称 为 主 成 份 脸 。 





A 图 12.15 20 个 主 成 分 脸 


1. 主 成 分 脸 的 定量 分 析 
回顾 式 (12-20) : 


ak =e eo (x —m)=e (X—m) 


我 们 看 到 ， 样 本 Xi 降 维 后 的 特征 向 量 的 每 一 维 分 量 Ay(k=1,2,.….,d') 
都 是 主 分 量 E* 和 个 体 差异 脸 (Xi -万 ) 的 内 积 《 (xz -而 ) 是 某 一 个 体 人 
脸 与 平均 人 脸 的 差异 ) 。 也 就 是 说 ， 对 于 原 空间 中 (Xi -而 的 每 一 维 都 
与 6x 的 对 应 一 维 相 乘 。 因 此 ，A， 可 以 看 成 是 对 原 d 维 空间 中 向 量 ( 
Xi 一 而) 根据 权 向 量 Ex 的 一 种 加 权 求 和 《线性 组 合 ) 。 而 作为 主 成 份 
脸 ，E 4 的 各 维 分 量 实际 上 给 出 了 在 PCA 降 维 过 程 中 ， 个 体 差异 脸 ( 
fi 一 而 各 个 维 分 量 的 重要 程度 。 

2. 结合 主 成 分 脸 图 像 的 分 析 

首先 ， 我 们 可 以 看 到 ， 图 12.15 中 的 所 有 20 个 主 成 分 脸 图 像 的 一 个 
共同 点 是 人 脸 区 域 之 外 的 图 像 背 景 相对 较 暗 ， 比 较 典 型 的 如 第 1 行 的 第 3 
幅 图 像 ， 其 背景 几乎 为 黑色 ， 这 是 因为 ORL 数 据 集中 的 人 脸 图 像 背 景 较 
为 均匀 一 致 ， 在 原始 d 维 空间 中 样本 在 对 应 背景 的 这 些 维 上 差异 很 小 ， 
从 样本 分 布 云 团 上 看 ， 这 些 维 上 的 云 团 的 散布 最 小 ， 因 此 2 对 应 于 这 
些 维 的 加 权 系 数 很 小 ， 在 显现 出 的 图 像 中 就 是 灰 度 小 ， 从 而 表现 为 主 成 
份 脸 的 暗 背景 。 

继续 按照 这 种 思路 分 析 ， 拿 第 1 个 主 成 分 脸 来 说 ， 眉 毛 、 鼻 子 和 上 
嘴唇 是 图 像 中 灰 度 相 对 较 高 的 区 域 ， 这 说 明 实验 数据 集中 的 200 个 人 脸 
之 间 在 这 些 位 置 存在 较 大 的 差异 ， 再 比如 第 1 行 的 第 5 个 主 成 份 脸 ， 面 部 
区 域 整体 亮度 较 高 ， 这 可 能 是 由 数据 集 人 脸 之 间 的 肤色 差异 导致 的 ， 其 




















他 典型 的 如 第 2 行 的 第 3 个 以 及 第 3 行 的 第 2 个 主 成 分 脸 中 的 眼睛 ， 第 2 行 
第 1 个 以 及 第 4 行 第 2 个 主 成 分 脸 的 嘴 ， 这 些 高 亮度 区 域 反 映 了 实验 数据 
集中 人 上 脸 之 间 的 五 官 差 异 。 此 外 ， 我 们 还 注意 到 同 为 五 官 之 一 的 鼻子 似 
乎 并 不 “抢眼 ?， 仅 第 3 行 的 第 1 幅 图 像 的 县 梁 区 域 亮度 相对 高 一 些 ， 这 说 
明正 面 为 主 的 人 脸 图 像 中 鼻子 之 间 差 异 不 大 ， 这 正好 和 学 术 界 普遍 认可 
的 鼻子 在 正面 图 像 为 主 的 人 脸 识别 中 的 作用 不 大 的 结论 相 一 致 。 

3. 降 维 对 分 类 性 能 的 影响 

人 类 能 够 识别 人 脸 ， 正 是 由 于 不 同 的 人 在 眼睛 、 嘴 和 眉毛 等 一 些 重 
要 器 官 上 的 差别 较 大 。 经 V= (e1,e: ,...,ed) 的 线性 变换 后 ， 原 始 d 维 
空间 中 那些 差别 较 大 的 维 在 变换 至 低 维 空间 的 过 程 中 被 较 大 的 加 权 而 保 
留 ， 而 那些 每 幅 人 脸 图 像 都 类 似 〈 缺 乏 区 分 力 ) 的 特征 ， 如 背景 、 鼻 
子 、 额 头等 被 赋 以 了 较 低 的 权 值 ， 从 而 在 d' 维 空间 中 几乎 没有 得 到 体 
现 。 这 样 经 PCA 处 理 后 ， 在 特征 问 量 维 数 大 大 降低 的 同时 ， 原 图 像 中 那 
些 差 异 最 大 的 特征 被 最 大 程度 地 保留 〈 以 一 种 线性 组 合 的 形式 ) ， 而 那 
些 相 对 一 致 、 区 分 力 较 差 的 特征 则 被 丢弃 。 这 就 是 为 什么 在 很 多 情况 下 
降 维 后 ， 分 类 的 识别 率 并 不 会 明显 下 降 的 原因 。PCA 降 维 丢弃 某 些 特征 
所 损失 的 信息 通过 在 低 维 空间 中 更 加 精确 地 映射 可 以 得 到 了 补偿 ， 从 而 
可 以 在 低 维 空间 中 得 到 和 高 维 空间 中 相当 的 识别 率 。 

4. PCA 能 够 很 好 工作 的 前 提 

细心 的 读者 可 能 会 发 现 ， 在 某 些 主 成 分 脸 图 像 的 人 脸 边 缘 处 也 出 现 
了 较 高 的 灰 度 ， 这 是 由 数据 集 图 像 中 人 脸 姿 态 和 位 置 的 差异 造成 的 ， 垃 
好 这 种 差异 不 大 〈10% 左 右 ) 。 实 际 上 在 我 们 的 系统 中 ， 经 过 PCA 降 维 
后 的 20 维 样本 矩阵 能 够 很 好 地 用 于 人 脸 识 别 的 另 一 个 关键 点 在 于 ORL 人 
脸 数据 库 中 的 大 部 分 人 脸 在 图 像 中 占据 着 大 致 相同 的 区 域 ， 姿 态 差 异 度 
不 大 ， 并 且 眼 睛 、 上 鼻子 、 发 迹 和 嘴 的 位 置 也 大 体 相 同 。 和 否则 的 话 ，200 
个 人 脸 图 像 之 间 的 差异 就 不 再 是 人 长 相 本 里 的 差异 了 ， 而 是 这 些 人 的 脸 





























部 区 域 在 图 像 中 位 置 的 莽 异 、 姿 态 的 差异 ， 以 及 右 官 位 置 的 差 寞 了 。 当 
然 ， 此 时 PCA 可 以 照常 计算 但 将 降 维 后 的 样本 和 矩阵 用 于 人 脸 识 别 束 不 
会 取得 理想 的 识别 率 了， 而 可 能 更 适合 于 姿态 分 类 。 








12.4.5 基于 主 分 量 的 人 脸 重 建 


下 面 利用 式 〈12-19) 来 实现 对 个 体 人 脸 图 像 的 重建 。 我 们 提供 的 
函数 approx 可 以 胜任 这 一 工作 。 其 中 参数 x 是 需要 重建 的 个 体 人 脸 样 
本 ，k 是 重建 使 用 的 主 分 量 数目 ， 输 出 xApprox 为 对 于 原样 本 辐 量 x 的 重 
建 ( 近 似 ) 。 具 体 实现 如 下 。 

function [ xApprox ] = approx( x, k ) 

% 用 kk 个 主 成 分 分 量 来 近似 《重建 ) 样本 x 

% 

% 输入 : xX--- 原 特 征 空间 中 的 样本 ， 被 近似 的 对 象 

%  ”--- 近似 (重建 ) 使 用 的 主 分 量 数目 

% 

% 输出 : xApprox --- 样本 的 近似 (重建 ) 

% 读 入 PCA 变换 矩阵 V 和 平均 脸 meanVec 

load Mat/PCA.mat 

nLen = length(x); 








XApprox = meanVec; 
forii= 1:k 
XApprox=xApprox+((x-meanVec)*V(:,ii))*V(:,ii)'; 
end 
下 面 的 程序 分 别 采用 了 50、100 和 200 个 主 分 量 来 重建 原始 样本 向 量 
x。 其 中 函数 displayImage(x, h, w) 的 作用 为 将 癌 量 x 按照 hxw 的 分 辩 率 进 


丁 显示 。 





~ 


>> load Mat/FaceMat.mat % 载 入 样本 和 矩阵 

>>X= FaceContainer(1, :); % 第 一 个 人 脸 样本 向 量 

>> displayImage(xApprox, 112 , 92); % 显示 原 图 像 

>> [pcaA V] = fastPCA( FaceContainer, 200 ); % 计算 200 个 主 分 量 

>> xApprox = approx(X, 50); % 使 用 50 个 主 分 量 的 近似 

>> displayImage(xApprox, 112 , 92); 

>> XApprox = approx(x, 100); % 使 用 100 个 主 分 量 的 近似 

>> displayImage(xApprox, 112 , 92); 

>> xApprox = approx(x, 200); % 使 用 200 个 主 分 量 的 近似 

>> displayImage(xApprox, 112 , 92); 

>> dist = norm(XApprox - x) % 计算 近似 的 差异 

dist = 

129.2606 

上 述 程序 最 后 利用 norm 函 数 计算 的 距离 表明 当 使 用 200 个 主 分 量 进 
行 重 建 时 ，xXApprox 与 X 几 乎 没有 差异 〈 灰 度 范 围 为 0 一 255 的 两 幅 112x92 
的 图 像 距 离 仅 为 129) 。 原 始 图 像 的 重建 效果 如 图 12.16 所 示 。 











(c) 使 用 100 个 主 分 量 的 重建 效果 (d) 使 用 200 个 主 分 量 的 重建 效果 





A 图 12.16 使 用 50、100 和 200 个 主 分 量 对 原样 本 的 重建 效果 (a) 和 
Cd) 实际 上 是 同一 向 量 在 不 同 基 下 的 两 种 不 同 表示 














局 部 二 进 制 模式 〈Local Binary Patterns ,LBP) 最 早 是 作为 一 种 有 效 
的 纹理 描述 算 子 提出 的 ， 由 于 其 对 图 像 局 部 纹理 特征 的 卓越 描绘 能 力 而 
获得 了 十 分 广泛 的 应 用 。LBP 特征 具有 很 强 的 分 类 能 力 (Highly 
Discriminative) 、 较 高 的 计算 效率 ， 并 且 对 于 单调 的 灰 度 变化 具有 不 变 
性 。 


12.5.1 基本 LBP 





图 12.17 给 出 了 一 个 基本 的 LBP 算 子 ， 应 用 LBP 算 子 的 过 程 类 似 于 滤 
波 过 程 中 的 模板 操作 。 逐 行 扫描 图 像 ， 对 于 图 像 中 的 每 一 个 像素 点 ， 以 
该 点 的 灰 度 作为 浆 值 ， 对 其 周围 3x3 的 8 邻 域 进行 二 值 化 ， 按 照 一 定 的 顺 
序 将 二 值 化 的 结果 组 成 一 个 8 位 二 进 制 数 ， 以 此 二 进 制 数 的 值 0 一 
255) 作为 该 点 的 啊 应 。 

例如 对 于 图 12.17 中 的 3x3 区 域 的 中 心 点 ， 以 其 灰 度 值 88 作 为 国 值 ， 
对 其 8 邻 域 进行 二 值 化 ， 并 且 从 左上 点 开始 按照 顺 时 针 方 向 (具体 的 顺 
序 可 以 任意 ， 只 要 统一 即 可 ) 将 二 值 化 的 结果 组 成 一 个 二 进 制 数 
10001011， 即 十 进 制 的 139， 作 为 中 心 点 的 响应 。 在 整个 逐 行 扫描 过 程 
结束 后 ， 我 们 会 得 到 一 个 LBP 啊 应 图 像 ， 这 个 啊 应 图 像 的 直方 图 被 称 为 
LBP 统 计 和 直方 图 ， 或 LBP 和 直方 图 ， 它 常常 被 作为 我 们 后 续 识 别 工作 的 特 
征 ， 因 此 也 被 称 为 LBP 特 征 。 











A 图 12.17 基本 LBP 算 子 





LBP 的 主要 思想 是 以 茶 一 点 与 其 邻 域 像 素 的 相对 灰 度 作为 啊 应 ， 正 
是 这 种 相对 机 制 使 得 LBP 算 子 对 于 单调 的 灰 度 变化 具有 不 变性 。 人 脸 图 














像 第 常会 受到 光照 因素 的 影响 而 产生 灰 度 变化 ， 但 在 一 个 局 部 区 域内 ， 
这 种 变化 常常 可 以 被 视 为 是 单调 的 ， 因 此 LBP 在 光照 不 均 的 人 脸 识 别 应 
用 中 也 取得 了 很 好 的 效果 。 





基本 LBP 算 子 可 以 被 进一步 推广 为 使 用 不 同 大 小 和 形状 的 邻 域 。 采 


用 圆 形 的 邻 域 并 结合 双 线 性 插值 运算 使 我 们 能 够 获得 任意 半径 和 任意 数 
目的 邻 域 像素 扣 。 图 12.18 给 出 了 一 个 半径 为 2 的 8 邻 域 像 系 的 圆 形 令 

域 ， 图 中 每 个 方 格 对 应 一 个 像素 ， 对 于 正好 处 于 方 格 中心 的 邻 域 点 
(下 、 上 、 右 、 下 4 个 黑 点 ) ， 和 直接 以 该 点 所 在 方 格 的 像 系 值 作为 它 的 
值 ， 对 于 不 在 像素 中 心 位 置 的 邻 域 点 和 斜 45° 方 回 的 4 个 黑 点 ) ， 通 过 双 
线性 插值 确定 其 值 。 











® io. 














A 图 12.18 圆 形 〈8,2) 邻 域 的 LBps > 算 子 





这 种 LBP 算 子 记 作 LBppR， 下 标 中 P 表 示 P 邻 域 ，R 表 示 圆 形 邻 域 的 
半径 ， 
如 图 12.19 所 示 ， 位 于 图 像 中 第 1 行 和 第 j 列 的 中 心 点 其 灰 度 用 IG, j 
表示 ) 和 8 个 邻 域 点 用 大 点 标 出 ， 为 计算 左上 角 空 心 大 黑 点 的 值 ， 需 要 
利用 其 周围 的 4 个 像素 点 〈4 个 空心 小 黑 点 ) 进行 插值 。 根 据 47.2 小 节 的 
双 线性 插值 方法 ， 首 先 分 别 计算 出 两 个 十 叉 点 1 和 2 的 水 平 插值 ， 其 中 点 
1 的 值 根据 与 之 处 于 同一 行 的 I(i-2, j-2) 以 及 I(i-2, j-1) 的 线性 插值 得 到 。 


vatuoll y= FO- Tri = 


同 理 可 计算 出 点 2 的 值 。 


val = TO- DL 





再 计算 出 点 1 和 点 2 竖 直 线性 插值 。 





value = value(]l)}+(2— do x(value(2)— value(])) 
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4 图 12.19 通过 双 线 性 插值 确定 不 在 像 际 中 心 位 置 的 邻 域 点 〈 斜 45? 方 问 
的 四 个 大 点 ) 的 值 





由 于 LBP 直 方 图 大 多 都 是 针对 图 像 中 的 各 个 分 区 分 别 计 算 的 《〈 详 见 
12.5.5 小 节 ) ， 对 于 一 个 普通 大 小 的 分 块 区 域 ， 标 准 LBP 算 子 得 到 的 二 
进 模式 数目 CLBP 直 方 图 收集 箱 数 目 ) 较 多 ， 而 实际 的 位 于 该 分 块 区 域 
中 的 像素 数目 却 相 对 较 少 ， 这 将 会 得 到 一 个 过 于 黎 芷 的 直方 图 ， 从 而 使 
直方 图 失去 统计 意义 。 因 此 应 设法 减少 一 些 见 余 的 LBP 模 式 ， 同 时 叉 保 
留 足 够 的 上 共有 重要 描绘 能 力 的 模式 。 

1. 理论 基础 

正 是 基于 以 上 考虑 ， 研 究 者 提出 了 统一 化 模式 (uniform patterns ) 
的 概念 ， 这 是 对 LBP 算 子 的 又 一 重大 改进 。 对 于 一 个 局 部 二 进 制 模 式 ， 
在 将 其 二 进 制 位 串 视 为 循环 的 情况 下 ， 如 果 其 中 包含 的 从 0 到 1 或 者 从 1 
到 0 转变 不 多 于 2 个 ， 则 我 们 称 这 个 局 部 二 进 制 模式 为 统一 化 模式 
(uniform patterns )。 例 如 ,模式 00000000 (0 个 转变 ) 、01110000 (2 








个 转变 ) 和 11001111 (2 个 转变 ) 都 是 统一 化 模式 ， 而 模式 11001001 (4 
个 转变 ) 和 01010011 (6 个 转变 ) 则 不 是 。 

统一 化 模式 的 意义 在 于 : 在 随后 的 LBP 直方 图 的 计算 过 程 中 ， 只 
为 统一 化 模式 分 配 单独 的 直方 图 收集 箱 (bin) ， 而 所 有 的 非 统 一 化 模 
式 都 被 放 入 一 个 公用 收集 箱 ， 这 就 使 LBP 特征 的 数目 大 大 减少 。 一般 
来 说 ， 保 留 的 统一 化 的 模式 往往 是 反映 重要 信息 的 那些 模式 ， 而 那些 非 
统一 化 模式 中 过 多 的 转变 往往 由 随即 噪声 引起 ， 不 具有 良好 的 统计 意 
Be 

假设 图 像 分 块 区 域 大 小 为 18x20， 像 素 总 数 为 360。 如 果 采 用 8 邻 域 
像素 的 标准 LBP 算 子 ， 收 集 箱 〈 特 征 ) 数目 为 256 个 ， 平 均 到 每 个 收集 
箱 的 像素 数目 还 不 到 2 个 〈360/256) ， 没 有 统计 意义 ;而 统一 化 LBP 算 
子 的 收集 箱 数 目 为 59 (58 个 统一 化 模式 收集 箱 加 上 1 个 非 统 一 化 模式 收 
集 箱 ) ， 平 均 每 个 收集 箱 中 将 含有 6 个 左右 像素 (360/59) ， 更 具 统 计 
意义 。 对 16 邻 域 像 素 而 言 ， 标 准 LBP 算 子 和 统一 化 LBP 算 子 的 收集 箱 数 
目 分 别 为 65 536 和 243。 

统一 化 LBP 算 子 通常 记 作 LBPrs 。 

2. Matlab 实现 

丁 所 提供 的 全 部 源 代码 可 以 在 金鸡 图 书 论坛 
(http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖 
子 附 件 的 “chapter12/code/ 目 录 下 的 LBP 工 具 箱 中 找到 ， 使 用 时 可 通过 以 
下 命令 将 工具 箱 添 加 到 工作 路 径 。 

addpath(genpath('... 改 为 您 存放 LBP 工 具 箱 的 相应 目录 ..\LBP ")) 

LBP 算 子 具 有 一 定 的 半径 ， 类 似 于 模板 操作 ， 这 里 同样 要 注意 LBP 
算 子 应 用 过 程 中 的 边界 问题 。 由 于 一 般 我 们 关心 的 是 LBP 统计 直方 
图 ， 而 不 是 响应 图 像 本 里， 因此 实现 中 一 般 不 需 同 外 填充 边界 ， 而 是 直 
接 在 计算 中 不 包括 图 像 的 边界 部 分 。 











应 用 rs? 算 子 到 某 个 分 块 图 像 并 获得 直方 图 的 实现 程序 如 下 。 
function [histLBP, MatLBP] = getLBPFea(D) 
% 计算 分 区 图 像 工 的 LBP 特 征 ,(8,2),uniform 
% 
% 输入 : I --- 分 区 图 像 
% 
% 返回 值 : MatLBP --- LBP 响 应 矩阵 
% histLBP --- 行 问 量 ，LBP 和 直方 图 
% 获得 分 块 图 像 I 的 大 小 
[m n] = sizel(]); 
rad = 2; 
if (m <= 2*rad) || (1 <= 2*rad) 

error('T is too small to compute LBP feature!'); 
end 
MatLBP = zeros(m-2*rad, n-2*rad); 
% 读 入 LBP 映射 (像素 灰 度 与 直方 图 收集 箱 索引 的 映射 ) 
load Mat/LBPMap.mat; 
forii= 1+rad : m-rad 

for jj = 1+rad : n-rad 

nCnt= 1; 


% 计算 (8,2) 邻 域 的 像素 值 ， 不 在 像素 中 心 的 把 通过 双 线 性 插值 


nbPTOCnt) = I(ii, jj-rad); 

nCnt = nCnt+1; 

horInterp1 = I(ii-2, jj-2) + 0.5858*( I(ii-2, jj-1) - I(ii-2, jj-2) ); % 水 
平方 向 


插值 

horInterp2 = I(ii-1, jj-2) + 0.5858*( I(ii-1, jj-1) - ICii-1, jj-2) ); % 水 
平方 同 

插值 

verInterp = horInterp1 + 0.5858*( horInterp2 - horInterp1 ); % 竖 直 
方向 插值 

nbPTOCnt) = verInterp; 
nCnt = nCnt+1; 
nbPTOCnt) = I(ii-2, jj); 
nCnt = nCnt+1; 
horInterp1 = I(ii-2, jj+1) + 0.4142*( I(ii-2, jj+2) - I(ii-2, jj+1) ); 
horInterp2 = I(ii-1, jj+1) + 0.4142*( I(ii-1, jj+2) - I(ii-1, jj+1) ); 
verInterp = horInterp1 + 0.5858*( horInterp2 - horInterp1 ); 
nbPTOCnt) = verInterp; 
nCnt = nCnt+1; 
nbPTCCnt) = I(ii, jj+2); 
nCnt = nCnt+1; 
horInterp1 = I(Gii+1, jj+1) + 0.4142*( I(ii+1, jj+2) - I(Gii+1, jj+1) ); 
horInterp2 = I(ii+2, jj+1) + 0.4142*( I(ii+2, jj+2) - I(ii+2, jj+1) ); 
verlInterp = horInterp1 + 0.4142*( horInterp2 - horInterp1 ); 
nbPTOCnt) = verInterp; 
nCnt = nCnt+1; 
nbPTCCnt) = I(ii+2, jj); 
nCnt = nCnt+1; 
horInterp1 = I(ii+1, jj-2) + 0.5858*( I(Gii+1, jj-1) - I(ii+1, jj-2) ); 
horInterp2 = I(ii+2, jj-2) + 0.5858*( I(ii+2, jj-1) - I(ii+2, jj-1) ); 
verInterp = horInterp1 + 0.4142*( horInterp2 - horInterp1 ); 


nbPTOCnt) = verInterp; 
for iCnt = 1:nCnt 
if( nbPT(iCnt) >= I(ii, jj) ) 
MatLBP(ii-rad, jj-rad) = MatLBP(ii-rad, jj-rad) + 2^(nCnt-iCnt); 
end 
end 
end 
end 
% 计算 LBP 直 方 图 
histLBP = zeros(1 59); % 对 于 (8,2) 的 uniform 直 方 图 共有 59 个 收集 箱 
forii= 1:m-2*rad 
for jj = 1:n-2*rad 
histLBP( vecLBPMap( MatLBP(ii, jj)+1 ) ) = histLBP( 
vecLBPMap( MatLBP(ii, jj)+1 ) ) 
+1; 
end 
end 
上 述 算法 中 国 绕 每 一 个 中 心 点 ， 从 左 侧 开 始 ， 按 照 顺 时 针 的 顺序 访 
问 8 个 邻 域 ， 形 成 二 进 制 模式 位 串 。 在 计算 直方 图 时 借助 vecLBPMap 映 
射 表 将 啊 应 图 像 MatLBP 中 的 像素 灰 度 映射 到 其 对 应 的 收集 箱 编号 。 如 
灰 度 为 gray(0<gray<255) 的 像素 应 洲 入 第 vecLBPMap(gray+1) 写 收集 箱 
中 。 通 过 下 面 的 函数 makeLBPMap 来 获得 映射 表 vecLBPMap。 
function vecLBPMap = makeLBPMap 
% 生成 (8,2) 临 域 uniform LBP 直 方 图 的 映射 天 系 ， 即 将 256 个 灰 度 值 
映射 到 59 个 收集 箱 中 
% 所 有 的 非 uniform 放 入 一 个 收集 箱 中 
vecLBPMap = zeros(1, 256); 9% 初 始 化 映射 表 


bits = zeros(1, 8); 9%8 位 二 进 制 模式 串 
nCurBin = 1; 
forii = 0:255 
num = ij; 
nCnt= 0; 
9% 获得 灰 度 num 的 二 进 制 表示 bits 
while (num) 
bits(8-nCnt) = mod(num, 2); 
num = floor( num / 2 ); 
nCnt = nCnt+1; 
end 
if IsUniform(bits) % 判断 bits 是 不 是 uniform 模 式 
vecLBPMap(ii+1) = nCurBin; % 每 个 uniform 模 式 分 配 一 个 收集 箱 
nCurBin = nCurBin + 1; 
else 
vecLBPMap(ii+1) = 59; % 上 所 有 非 uniform 模 式 都 放 入 第 59 号 收集 


end 

end 

% 保存 映射 表 

save('Mat/LBPMap.mat', 'vecLBPMap'); 

函数 makeLBPMap 中 调用 了 IsUniform(bits) 方 法 来 检查 二 进 模式 串 
bits 是 否 是 统一 化 模式 (uniform pattern) ，IsUniform 方 法 的 实现 如 下 。 

function bUni = ISUniform(bits) 

% 判断 某 一 个 位 串 模式 bits 是 否 是 uniform 模式 

% 

% 输入 : bits --- 二 进 制 LBP 模 式 串 





% 
% 返回 值 : bUni --- =1， 计 bits 是 uniform 模 式 串 ; =2，if bits 不 是 
uniform 模 式 串 

n = length(bits); 
nJmp = 0; % 位 跳 变 数 (0->1 or 1->0) 
forii= 1:(n-1) 

if( bits(ii) 一 = bits(ii+1) ) 

nJmp = DJmPp+T; 

end 
end 
if bits(n) 一 = bits(1) 


njmp = njmp+!1; 


end 
让 nJmp > 2 
bUni = false; 
else 
bUni = true; 
end 


12.5.4 MB-LBP 及 其 Matlab 实 现 


1. 理论 基础 

前 述 的 基于 像素 相对 灰 度 比较 的 LaPss 算 子 可 以 很 精细 地 描述 图 像 
局 部 的 纹理 信息 。 然 而 ， 也 正 是 由 于 这 种 特征 的 局 部 化 特点 ， 使 它 易 受 
噪声 的 影响 而 不 够 健壮 〈robust) ， 缺 乏 对 图 像 整体 信息 的 粗 粒 度 把 
握 。 因 此 MB-LBP 〈Multi-block Local Binary Patterns) 被 提出 以 弥补 传 
统 LBP 的 这 一 不 足 。 起 初 MB-LBP 被 作为 标准 3x3 LBP 的 扩展 而 引入 ， 随 





后 也 被 用 于 与 LBP'* 算 子 结合 使 用 。 在 MB-LBP 的 计算 中 ， 传 统 LBP 算 子 
像素 值 之 间 的 比较 被 像素 块 sub-block) 之 间 的 平均 灰 度 的 比较 所 代 
蔡 ， 如 图 12.20 所 示 。 不 同 的 像素 块 大 小 代表 着 不 同 的 观察 和 分 析 粒 
度 。 我 们 通常 以 符号 MBs - LBR: 表 示 像 素 块 大 小 为 SxS 的 LBm2 算 子 。 














(a) MB; - LBP! (b) MB3 -LBP:? 
A 图 12.20 MB-LGBP 算 子 


图 12.20 中 每 个 灰色 细 线 的 小 方 格 代表 一 个 像素 ， 每 个 黑色 粗 线 围 
成 的 大 方 格 代表 一 个 像素 块 ， 其 值 是 由 其 中 3x3 共 9 个 像素 的 灰 度 平均 而 
得 的 。 

2. Matlab 实现 

下 面 分 别 给 出 应 用 MBs - LBBy; 算 子 和 MB > LBP;3 算 子 到 某 一 图 像 分 区 I 
的 Matlab 算 法 实现 。 

(1) 提取 MBs - LBR2 特 征 

算法 getMBLBPFea 的 输入 blockSize 为 块 的 大 小 ， 即 MBs - LBP: 中 的 
S， 其 默认 值 为 1， 即 1 个 块 仅 为 1 个 像素 ， 对 应 传统 的 LBP2 算 子 。 因 
此 ， 在 12.4.3 小 节 的 getLBPFea 算 法 可 以 看 作 是 本 算法 的 特例 。 为 了 求 得 
I 中 各 个 像素 块 的 值 ， 首 先 计算 像素 块 中 像素 的 平均 灰 度 ， 而 后 以 此 平 


均 灰 上 度 作 为 灰 度 值 ， 求 得 了 I 的 低 分 辩 率 表示 I_MB， 此 后 的 阔 值 化 操作 
只 需 对 I_MB 进 行 ， 阔 值 化 过 程 和 getLBPFea 中 类 似 。 
function [histLBP, MatLBP, MatLBP_MB] = get MBLBPFeall], 


blockSize) 
% 计算 分 块 区 域 1 的 LBP 特 征 ,(8,2),uniform 
% 


% 输入 : 1--- 分 区 图 像 

% blockSize --- MBLBP 中 的 分 块 大 小 ， 默 认 值 为 1 
% 

% 返回 值 : MatLBP --- LBP 响应 矩阵 


% histLBP --- 行 同 量 ，LBP 直方 图 
% MatLBP MB --- MBLBP 的 像素 块 低 分 辨 率 表 示 


if nargin < 2 
blockSize = 1; 

end 

% 获得 分 块 图 像 I 的 大 小 

[m pn] = sizel(]1); 

% 将 原始 图 像 依 据 blockSize 分 块 ， 计 算 每 块 的 平均 灰 度 值 ， 对 应 
保存 在 映射 窍 阵 MB 中 

mSub = floor(m / blockSize); 

nSub = floor(n / blockSize); 


mRem = mod(m, blockSize); 





nRem = mod(n, blockSize); 
mRem = round(mRem / 2); 
nRem = round(nRem / 2); 
[MB = zeros(mSub, nSub); 


forii= 1:mSub 


for jj = 1:nSub 
L_center = I( 1+mRem:mRem+mSub*blockSize, 
1+nRem:nRem+nSub*blockSize ); % 取 中 心 
区 域 ， 不 够 分 出 整 块 的 留 在 两 个 边 
SubRgn = I center( (ii-1)*blockSizet+1 : ii*blockSize, (jj- 
1)*blockSize+1 : 
jj*blockSize ); 
I MB(ii, jj) = mean( SubRgn(:) ); 
end 
end 
% 剩 下 的 任务 就 是 对 分 块 矩 阵 的 映射 LMB 计算 blockSize =1 的 
uniform (8, 2) LBP 特 征 了 
rad = 2; 
if (mSub <= 2*rad) | (nSub <= 2*rad) 
error('T is too small to compute LBP feature!'); 
end 
MatLBP_MB = zeros(mSub-2*rad, nSub-2*rad); 
% 读 入 LBP 映射 (像素 灰 度 与 直方 图 收集 箱 索 引 的 映射 ) 
load Mat/LBPMap.mat; 
forii= 1+rad : mSub-rad 
for jj = 1+rad : nSub-rad 
nCnt= 1; 
% 计算 (8,2) 邻 域 的 像素 值 ， 不 在 像素 中 心 的 点 通过 双 线 性 插值 


nbPTOCnt) = I MB(ii, jj-rad); 
nCnt = nCnt+1; 
horInterpl = I_ MB(ii-2, jj-2) + 0.5858*( I_MB.(ii-2, jj-1) - ILMB(ii- 


2, jj-2) ); 
% 水 平方 向 插值 

horInterp2 = I_MB(ii-1, jj-2) + 0.5858*( I_MB.(ii-1, jj-1) - 工 MB(ii- 

1, jj-2) ); 
% 水 平方 向 插值 

verInterp = horInterp1 + 0.5858*( horInterp2 - horInterp1 ); % 竖 直 
方向 插值 

nbPT(nCnt) = verInterp; 

nCnt = nCnt+1; 

nbPTOCnb = I MB(i-2, jj); 

nCnt = nCnt+1; 

horInterpl = I_ MB(ii-2, jj+1) + 0.4142*( I MB(ii-2, jj+2) - 
LI MB(ii-2, jj+1) ); 

horInterp2 = I_MB(ii-1, jj+1) + 0.4142*( I MB(ii-1, jj+2) - 
[MB(ii-1, jj+1) ); 

verInterp = horInterp1 + 0.5858*( horInterp2 - horInterp1 ); 

nbPT(nCnt) = verInterp; 

nCnt = nCnt+1; 

nbPTOCnt) = I MB(ii, jj+2); 

nCnt = nCnt+1; 

horInterpl = I_ MB(ii+1, jj+1) + 0.4142*( I_ MB(ii+1, jj+2) - 
I MB(ii+1, jj+1) ); 

horInterp2 = I_MB(ii+2, jj+1) + 0.4142*( I_ MB(ii+2, jj+2) - 
LI MB(ii+2, jj+1) ); 

verInterp = horInterp1 + 0.4142*( horInterp2 - horInterp1 ); 

nbPT(nCnt) = verInterp; 

nCnt = nCnt+1; 


nbPT(nCnt) = I MB(ii+2, jj); 
nCnt = nCnt+ 1; 
horInterpl = I_ MB(ii+1, jj-2) + 0.5858*( 工 MB(ii+1, jj-1) - 
I MB(ii+1, jj-2) ); 
horInterp2 = I_ MB(ii+2, jj-2) + 0.5858*( 工 MB(ii+2, jj-1) - 
I_MB(ii+2, jj-1) ); 
verInterp = horInterp1 + 0.4142*( horInterp2 - horInterp1 ); 
nbPT(mCnt) = verInterp; 
for iCnt = 1:nCnt 
if( nbPT(iCnt) >= I MB(ii, jj)) 
MatLBP_MB(ii-rad, jj-rad) = MatLBP_MB(ii-rad, jj-rad) + 
2^(nCnt-iCnt); 
end 
end 
end 
end 
% 还 原 MatLBP_MB 
MatLBP = zeros(m-2*rad*blockSize, n-2*rad*blockSize); 
forii= 1:mSub-2*rad 
for jj = 1:nSub-2*rad 
MatLBP( mRem+(ii-1)*blockSize+1 : mRem+ii*blockSize, nRem+ 
(Qj-1)*blockSize+1 : 
nRem+jj*blockSize ) = MatLBP_MB(ii, jj); 
end 
end 
% 计算 LBP 直 方 图 
histLBP = zeros(1 59); % 对 于 (8,2) 的 uniform 直 方 图 共有 59 个 收集 箱 


forii= 1:mSub-2*rad 
for jj = 1:nSub-2*rad 
histLBP( vecLBPMap( MatLBP_MB(ii, jj)+1 ) ) = histLBP( 
vecLBPMap( MatLBP_MB(ii, 
jj)+1 ))+ 1; 
end 
end 
(2) 提取 MB3 -LBP33 特 征 
function [histLBP, MatLBP, MatLBP_MB] = get MBLBPFea_33(], 
blockSize) 
% 计算 分 区 图 像 工 的 LBP 特 征 ,3*3,uniform 
% return value: MatLBP --- LBP 啊 应 矩阵 


% histLBP --- 行 同 量 ，LBP 直方 图 
% blockSize --- MBLBP 中 的 分 块 大 小 ， 默 认 值 为 1 
% 


% 输入 : I --- 分 区 图 像 
% blockSize --- 块 的 大 小 


% 

% 返回 值 : MatLBP --- LBP 响应 矩阵 

% histLBP --- 行 同 量 ，LBP 直方 图 

% MatLBP MB --- MBLBP 的 像素 块 低 分 辨 率 表 示 


if nargin <2 
blockSize = 1; 
end 
% 获得 分 块 图 像 I 的 大 小 


[mn] = size(D); 





% 将 原始 图 像 依 据 blockSize 分 块 ， 计 算 每 块 的 平均 灰 度 值 ， 对 应 
保存 在 映射 窍 阵 MB 中 
mSub = floor(m / blockSize); 
nSub = floor(n / blockSize); 
mRem = mod(m, blockSize); 
nRem = mod(n, blockSize); 
mRem = round(mRem / 2); 
nRem = round(nRem / 2); 
[MB = zeros(mSub, nSub); 
forii= 1:mSub 
forjj= 1l:nSub 
L_center = I( 1+mRem:mRem+mSub*blockSize, 
1+nRem:nRem+nSub*blockSize ); % 取 中 心 
区 域 ， 不 够 分 出 整 块 的 留 在 两 个 边 
SubRgn = I center( (ii-1)*blockSizet+1 : ii*blockSize, (jj- 
1)*blockSize+1 : 
jj*blockSize ); 
[MPB(ii, jj) = mean( SubRgn(:) ); 
end 
end 
% 剩 下 的 任务 就 是 对 分 块 矩 阵 的 映射 LMB 计算 blockSize =1 的 
uniform 3*3 LBP 特 征 了 
rad=1; 
if (mSub <= 2*rad) || (nSub <= 2*rad) 
error('T is too small to compute LBP feature!'); 
end 
MatLBP_MB = zeros(mSub-2*rad, nSub-2*rad); 


% 读 入 LBP 映射 (像素 灰 度 与 直方 图 收集 箱 索引 的 映射 ) 
load Mat/LBPMap.mat; 
forii= 1+rad : mSub-rad 
for jj = 1+rad : nSub-rad 
nCnt= 1; 
% 计算 3*3 邻 域 的 像素 值 
nbpT(nCnt) = I_MB(ii-rad, jj-rad); 
nCnt = nCnt + 1; 
nbpT(nCnt) = I_ MB(ii-rad, jj); 
nCnt = nCnt + 1; 
nbpT(nCnt) = I_MB(ii-rad, jj+rad); 
nCnt = nCnt+1; 
nbpT(nCnt) = I_ MB(ii, jj+rad); 
nCnt = nCnt + 1; 
nbpT(nCnt) = I_MB(iitrad, jj+rad); 
nCnt = nCnt+1; 
nbpT(nCnt) = I_MB(iitrad, jj); 
nCnt = nCnt + 1; 
nbpT(nCnt) = I_MB(iitrad, jj-rad); 
nCnt = nCnt + 1; 
nbpT(nCnt) = IL_ MB(ii, jj-rad); 
for iCnt = 1:nCnt 
if( nbPT(iCnt) >= LIL_MB(ii, jj) ) 
MatLBP_MB(ii-rad, jj-rad) = MatLBP_MB(ii-rad, jj-rad) + 
2^(nCnt-iCnt); 
end 


end 


end 
end 
% 还 原 MatLBP_MB 
MatLBP = zeros(m-2*rad*blockSize, n-2*rad*blockSize); 
forii= 1:mSub-2*rad 
for jj = 1:nSub-2*rad 
MatLBP( mRem+(ii-1)*blockSize+1 : mRem+ii*blockSize, nRem+ 
Qj-1)*blockSize+1 : 
nRem+jj*blockSize ) = MatLBP_MB(ii, jj); 
end 
end 
% 计算 LBP 直 方 图 
histLBP = zeros(1 59); % 对 于 (8,2) 的 uniform 直 方 图 共有 59 个 收集 箱 
forii= 1:mSub-2*rad 
for jj = 1:nSub-2*rad 
histLBP( vecLBPMap( MatLBP_MB(ii, jj)+1 ) ) = histLBP( 
vecLBPMap( MatLBP_MB(ii, 
jj)+1))+1; 
end 
end 
[ 例 12.4] 经 过 MBs - LBP 滤波 的 人 脸 图 像 。 
分 别 采 用 MB, -LBPy2、MB2 -LBBs2 和 MB3 - LBB; 牌子 对 图 12.21 (a) 中 
图 像 进行 特征 提取 的 Matlab 程 序 如 下 所 示 。 
>> I= imread('../mh_gray.bmp'); % 读 入 图 像 
>> [hist1, I_ LBP1] = getMBLBPFeal(l, 1); 
>> [hist2, I_ LBP2] = get MBLBPFeal(l, 2); 


>> [hist3, IL_LBP3] = getMBLBPFea(L, 3); 

>> figure, imshow(LLBP1, []) % 得 到 图 12.21 (b) 

>> figure, imshow(L_LBP2, []) % 得 到 图 12.21 (c) 

>> figure, imshow(L_LBP3, []) % 得 到 图 12.21 (d) 

上 述 程序 运行 后 效果 如 图 12.21 (b) 、 (c) 、(d) 所 示 。 





(a) 原 图 像 (b) 经 MB| -LBP 2: 滤波 后 (c) 经 MB， -LBPs; 滤波 后 (d) 经 MB - LBP82 滤波 后 


A 图 12.21 经 过 MBs - LBR: 滤波 的 人 脸 图 像 


图 12.21 (b) 、〈c) 、(d) 分 别 为 图 12.21 (a) 经 过 MB, - LBR2 ， 
MB: -BR2 和 MB; - LBR2 算 子 滤波 之 后 的 响应 图 像 。 注 意 3 幅 响 应 图 像 中 
LBP 算 子 的 强大 纹理 描绘 能 力 ， 同 时 应 看 到 随 着 像素 块 大 小 S 的 增加 ， 
响应 图 像 中 纹理 增 粗 并 且 趋 于 稳定 ， 说 明 对 相对 较 大 S 的 LBP 直 方 图 的 
分 析 将 有 助 于 我 们 把 握 图 像 中 的 粗 粒度 信息 。 








12.5.5 分 区 及 其 Matlab 实 现 


在 12.2.2 小 节 曾 提 到 ， 作 为 图 像 的 一 阶 统 计 特 征 ， 直 方 图 无 法 描述 
图 像 的 结构 信息 。 而 图 像 各 个 区 域 的 局 部 特征 往往 差异 较 大 ， 如 果 仅 对 
整个 图 像 的 生成 一 个 LBP 直方 图 ， 这 些 局 部 的 差异 信息 就 会 丢失 。 分 
区 LBP 特 征 可 有 效 解 决 这 一 问题 。 

具体 的 方法 是 将 一 幅 图 像 适 当地 划分 为 PxQ 个 分 区 (partition)》， 
然后 分 别 计算 每 个 图 像 分 区 的 直方 图 特征 ， 最 后 再 将 所 有 块 的 直方 图 特 











征 连接 成 一 个 复合 的 特征 向 量 (composite feature) 作为 代表 整个 图 像 的 
LBP 直 方 图 特征 。 

1. 分 区 大 小 的 选择 

理论 上 ， 越 小 越 精细 的 分 区 意味 着 更 好 的 局 部 描述 能 力 ， 但 同时 会 
产生 更 高 维 数 的 复合 特征 。 然 而 过 小 的 分 区 会 造成 直方 图 过 于 稀 疏 从 而 
失去 统计 意义 。 在 文献 [7] 人 脸 识 别 的 应 用 中 选择 了 18x21 的 分 区 大 小 ， 
这 可 以 作为 对 于 一 般 问题 的 指导 性 的 标准 ， 因 为 它 是 一 个 精确 描述 能 
与 特征 复杂 度 的 良好 折 中 。 在 表情 识别 中 更 小 一 些 〈 如 10x15) 的 分 区 
被 我 们 证 明 [8，9] 能 够 获得 更 好 的 分 类 能 力 。 这 里 分 区 大 小 的 单位 是 
MB-LBP 的 像素 块 〈block) 。 如 对 于 传统 LBP， 每 个 分 区 大 小 取 18 像 素 
x21 像 素 ， 则 对 于 MB3 - LBR: ， 分 区 大 小 应 取 18 像 素 块 x21 像 素 块 =54 像 
素 x63 像 素 。 

2. 分 区 LBP 的 Matlab 实 现 

我 们 编写 了 getLBPHist(L r, cnDMB) 函 数 用 来 提取 图 像 [的 分 区 LBP 
特征 。 其 输入 r 和 c 分 别 代表 分 区 的 行 数 和 列 数 ，nMB 给 出 了 MB-LBP 像 
素 块 的 大 小 。 函 数 返 回 一 个 癌 量 ， 它 是 图 像 I 的 复合 LBP 特 征 。 

function histLBP = getLBPHist(], r, c, nMB) 

% 取得 I 的 分 区 LBP 直方 图 

% 

% 输入 : pc--- 了 分 区 的 数目 ，r*c 个 分 区 

% ”nMB --- MB-LBP 中 块 的 大 小 

% 

% 返回 值 : histLBP --- 连接 了 工 的 各 个 分 块 的 LBP 直 方 图 而 形成 的 代 
表 1I 的 LBP 复 合 特征 癌 量 

[m n] = sizel(]); 


% 计算 分 区 的 大 小 





mpPatrtitionSize = floor(m /7); 
nPartitionSize = floor(n / c); 
forii= 1:r-1 
forjj = 1:c-1 
Sub = I( (ii-1)*mPartitionSize+1:ii*mpPartitionSize, (jj- 
1)*nPpartitionSize+1: 
jj*nPartitionSize ); 
hist{ii}{jj} = getMBLBPFea( Sub, nMB ); % 如 需 提 取 3*3LBP， 请 
注释 此 行 
% histfii}1jj} = getMBLBPFea_33( Sub, nMB ); % 如 需 提取 
3*3LBP， 请 打开 此 注释 
end 
end 
9% 处 理 最 后 一 行 和 最 后 一 列 
clear Sub 
forii= 1:r-1 
Sub = 1( (ii-1)*mpPartitionSize+1:ii*mpartitionSize, (c- 
1)*nPartitionSize+12n ); 
hist{ii}{c} = get MBLBPFea(Sub, nMB); 
% hist{ii}{c} = get MBLBPFea_33( Sub, nMB ); 


end 
clear Sub 
forjj = 1:c-1 


Sub=1((r-1)*mpPartitionSize+1:m, (jj- 
1)*nPartitionSize+1:jj*nPartitionSize ); 
hist{r}{jj} = get MBLBPFea(Sub, nMB); 
% hist{r}{jj} = get MBLBPFea_33( Sub, nMB ); 


end 

clear Sub 

Sub = I((r-1)*mpPartitionSizet+1:m, (c-1)*nPartitionSize+1:n); 

hist{r}{c} = get MBLBPFea(Sub, nMB); 

%hist{r}{c} = get MBLBPFea_33( Sub, nMB ); 

% 连接 各 个 分 块 的 LBP 直 方 图 形成 复合 特征 向 量 

histLBP = zeros(1, 0); 

forii= 1:r 

forjj= 1:c 
histLBP = [histLBP hist{ii} {jj}]; 
end 

end 

默认 情况 下 函数 getLBPHist( ) 提 取 (8,2) 圆 形 邻 域 的 LBP 特 征 。 如 果 
需要 提取 3x3 的 LBP 特 征 ， 请 将 代码 中 getMBLBPFea 的 调用 蔡 换 为 
getMBLBPFea_33 的 调用 。 

[ 例 12.5] 获 得 一 幅 图 像 的 复合 LBP 直 方 图 特征 。 

以 不 同 的 分 区 数目 和 不 同 的 块 大 小 从 图 12.22 (a) 中 提取 分 区 LBP 
特征 的 程序 如 下 。 

>> 1= imread('../mh_gray.bmp]); % 读 入 图 像 

>> histLBP1 = getLBPHist(L 14, 13, 1); % 按 照 14x13 分 区 后 像素 块 大 
小 为 1 的 复合 LBP 直 方 图 特征 

>> histLBP2 = getLBPHist(1, 7, 6, 2); % 按 照 7x6 分 区 后 像素 块 大 小 为 
2 的 复合 LBP 直 方 图 特征 

>> histLBP3 = getLBPHist(L 5, 4, 3); % 按 照 5x4 分 区 后 像素 块 大 小 为 
3 的 复合 LBP 直 方 图 特征 

>> figure, plot(histLBP1) % 得 到 图 12.22 (b) 

>> figure, plot(histLBP2) % 得 到 图 12.22 (c) 











>> figure, plot(histLBP3) % 得 到 图 12.22 (d) 
上 述 程序 运行 结果 如 图 12.22 (b) 、 (c) 、(d) 所 示 。 
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(a) 原 图 像 (b) 原 图 按照 14X 13 分 区 后 像素 块 大 小 为 1 的 复合 LBP 直方 图 
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(c) 原 图 按照 7X6 分 区 后 像素 块 大 小 为 2 的 复合 LBP 直方 图 “〈d) 原 图 按照 5X4 分 区 后 像素 块 大 小 为 3 的 复合 LBP 直方 图 


A 图 12.22 复合 LBP 直 方 图 特征 


图 12.22 (b) 、(c) 、 〈d) 分 别 为 对 〈a) 中 图 像 的 复合 LBP 直 方 
图 。 注 意 为 保证 每 个 分 区 中 的 像素 块 个 数 基本 相同 〈 约 为 18x21) ， 对 
于 小 像素 块 (MB -LBm: ) ， 采 用 较 大 的 分 区 数目 ， 如 (b) 中 分 区 数 为 
14x13， 这 样 每 个 分 区 中 约 包含 19x20 个 像素 块 ， 而 对 于 较 大 的 像素 块 ( 
MBs -LBPs2 ) ， 选 择 较 小 的 分 区 数目 ， 如 (d)》 中 分 区 数 为 5x4， 这 样 每 
个 分 区 中 约 包 含 17x21 个 像素 块 。 由 于 每 个 分 区 的 uniform LBP 直 方 图 
( 回 量 ) 维 数 均 为 59， (a) 中 得 到 的 是 一 个 14x13x59 = 10 738 维 的 直方 图 
(向 量 ) ，(c) 中 为 一 个 5x4x59 = 1180 维 的 直方 图 〈 向 量 ) 。 这 也 说 
明了 越 小 越 精细 的 分 区 《分 区 数目 较 多 ) 在 提供 更 好 的 局 部 描述 能 力 的 
同时 会 产生 更 高 维 数 的 复合 特征 。 

对 于 最 终 得 到 的 这 个 复合 LBP 直 方 图 ， 既 可 以 将 它 直 接 作为 1 个 代 





表 图 像 的 特征 癌 量 来 使 用 ， 也 可 以 采用 12.2.2 小 市 中 介绍 的 方法 进一步 
提取 其 统计 特征 。 


第 13 音 识 另 | > 步 


前 面 章节 中 介绍 的 众多 的 图 像 处 理 技术 主要 就 是 为 图 像 识别 服务 
的 ， 而 从 第 13 章 开始 将 正式 转 入 图 像 识 别 领域 。 通 过 本 章 的 学 习 ， 读 者 
可 以 建立 起 对 图 像 识别 乃至 一 般 的 模式 识别 问题 的 基本 认识 ， 学 习 和 掌 
握 解 决 识别 问题 的 一 般 思路 。 此 外 ，13.3 节 还 将 介绍 最 小 距离 分 类 和 模 
板 匹 配 的 简单 技术 。 可 以 说 从 现在 开始 ， 本 书 对 机 器 视觉 的 探究 将 渐 入 
高 潮 。 

本 章 的 知识 和 技术 热点 

e 模式 与 模式 识别 的 基本 概念 

e 过 度 拟 合 

e 最 小 距离 分 类 器 

e 基于 相关 的 模板 匹配 

本 章 的 典型 案例 分 析 

e 基于 最 小 距离 分 类 器 的 高 尾 属 植物 分 类 

e 基于 相关 技术 的 图 像 模式 匹配 








13.1 模式 识别 概述 


模式 识别 (Pattern Recognition) 是 人 类 的 一 项 基本 智能 ， 在 日 常生 
活 中 ， 人 们 经 常 在 进行 “模式 识别 ”。 随 着 20 世 纪 40 年 代 计 算 机 的 出 现 以 
及 20 世 纪 50 年 代 人 工 智 能 的 兴起 ， 人 们 当然 也 希望 能 用 计算 机 来 代 蔡 或 
扩展 人 类 的 部 分 脑力 劳动 。( 计 算 机 〉 模式 识别 在 20 世 纪 60 年 代 初 迅速 
发 展 并 成 为 一 门 新 学 科 。 





13.1.1 模式 与 模式 识 昂 





模式 是 由 确定 的 和 随机 的 成 分 组 成 的 物体 、 过 程 和 事件 。 在 一 个 模 
式 识别 问题 中 ， 它 是 我 们 识别 的 对 象 。 

模式 识别 是 指 对 表征 事物 或 现象 的 各 种 形式 的 “数值 的 、 文 字 的 和 
逻辑 关系 的 ) 信息 进行 处 理 和 分 析 ， 以 对 事物 或 现象 进行 描述 、 辨 认 、 
分 类 和 解释 的 过 程 ， 简 单 地 说 就 是 应 用 计算 机 对 一 组 事件 或 过 程 进行 鉴 
别 和 分 类 。 

我 们 所 指 的 模式 识别 主要 是 对 语 首 波形 、 地 震波 、 心 电 图 、 脑 电 
图 、 图 片 、 照 片 、 文 字 、 符 号 、 生 物 的 传感器 等 对 象 进行 测量 的 具体 柑 
式 进 行 分 类 和 辨识 。 

模式 识别 与 统计 学 、 心 理学 、 语 言 学 、 计 算 机 科学 、 生 物 学 、 控 制 
论 等 都 有 关系 。 它 与 人 工 智能 、 图 像 处 理 的 研究 有 交叉 关系 。 例 如 目 适 
应 或 自 组 织 的 模式 识别 系统 包含 了 人 工 智能 的 学 习 机 制 ， 人 工 智 能 研究 
的 景物 理解 、 目 然 语言 理解 也 包含 模式 识别 问题 。 又 如 模式 识别 中 的 预 
处 理 和 特征 提取 环节 需要 应 用 图 像 处 理 的 技术 ;而 图 像 处 理 中 的 图 像 分 
析 也 常常 应 用 模式 识别 的 技术 。 








13.1.2 识 询 


将 模式 识别 的 方法 和 技术 应 用 于 图 像 领域 ， 即 当 识 别 的 对 象 是 图 像 
时 束 称 为 图 像 识别 。 虽 然 对 我 们 人 类 而 言 ， 理 解 和 识别 所 看 见 的 东西 似 
乎 是 一 件 再 平 第 不 过 的 事情 ， 让 计算 机 具有 类 似 的 智能 却 是 一 项 极 具 挑 
战 性 的 任务 ， 然 而 两 者 在 很 多 环节 上 是 相似 的 ， 下 面 让 我 们 从 熟悉 的 人 
类 视觉 过 程 开始 ， 认 识 机 器 的 图 像 识 别 机 理 。 

图 形 刺 激 作 用 于 感觉 占 官 ， 人 们 辨认 出 它 是 经 验 过 的 茶 一 图 形 的 过 
程 ,也 叫 图 像 再 认 。 所 以 说 在 图 像 识别 中 , 既 要 有 当时 进入 感官 的 信息 ,也 
要 有 记忆 中 存储 的 信息 。 只 有 通过 存储 的 信息 与 当前 的 信息 进行 比较 的 
加 工 过 程 ， 才 能 实现 对 图 像 的 再 认 。 这 一 点 和 计算 机 的 识别 中 ， 需 要 先 














学 习 一 些 已 经 类 别 的 样本 《训练 样本 ) ， 才 能 识别 那些 类 别 未 知 的 新 样 
本 (测试 样本 〉 是 相似 的 。 

人 的 图 像 识别 能 力 是 很 强 的 。 图 像 距离 的 改变 或 图 像 在 感觉 占 官 上 
作用 位 置 的 改变 ， 都 会 造成 图 像 在 视网膜 上 的 大 小 和 形状 的 改变 ， 即 使 
在 这 种 情况 下 ， 人 们 仍然 可 以 认 出 他 们 过 去 知觉 过 的 图 像 ， 此 外 ， 人 类 
还 具有 非凡 的 3D 重 建 能 力 ， 比 如 说 您 可 能 只 见 过 茶 人 的 正面 照片 ， 但 
您 可 以 认 出 此 人 的 侧 脸 甚至 是 背 脸 。 从 这 个 意义 上 说 ， 目 前 计算 机 的 识 
别 能 力 与 我 们 人 类 残 相 差 甚 远 了 。 

图 像 识 别 可 能 是 以 图 像 的 主要 特征 为 基础 的 。 每 个 图 像 都 有 它 的 特 
征 ,如 字母 A 有 个 尖 ，P 有 个 圈 、 而 Y 的 中 心 有 个 锐角 等 。 相 关 研 究 表 
明 ， 识 别 时 视线 总 是 集中 在 图 像 的 主要 特征 上 ， 也 就 是 集中 在 图 像 轮廓 
曲 度 最 大 或 轮廓 方 问 突然 改变 的 地 方 ， 这 些 地 方 的 信息 量 最 大 。 而 且 眼 
崩 的 扫描 路 线 也 总 是 依次 从 一 个 特征 转 到 另 一 个 特征 上 。 由 此 可 见 ， 在 
图 像 识别 过 程 中 ， 知 党 机 制 必须 排除 输入 的 多 余 信 息 , 抽 出 关键 的 信 
恩 。 同 时 ,在 大 脑 里 必定 有 一 个 负责 整合 信息 的 机 制 ， 它 能 把 分 阶段 获 
得 的 信息 整理 成 一 个 完整 的 知觉 映 象 。 这 一 点 正好 说 明了 图 像 识 别 中 特 
征 提取 的 必要 性 。 

图 像 识 别 中 著名 的 的 模板 匹配 模型 认为 ， 要 识别 菜 个 图 像 ， 必 须 在 
过 去 的 经 验 中 有 这 个 图 像 的 记忆 模式 ， 又 叫 模板 。 当 前 的 刺激 如 宁 能 与 
大 脑 中 的 模板 相 匹 配 ， 这 个 图 像 融 被 识别 了 。 例 如 有 一 个 字母 A, 如 和 在 
脑 中 有 个 A 模 板 , 字 母 A 的 大 小 、 方 位 、 形 状 都 与 这 个 A 模 板 完全 一 致 , 字 
母 A 就 和 ”识别 了 。 但 这 种 模型 强调 几 像 必须 与 脑 中 的 模板 完全 匹配 才能 
成 功 识 别 ， 而 事实 上 人 不 仅 能 识别 与 脑 中 的 模板 完全 一 致 的 图 像 ， 也 能 
识别 与 模板 不 完全 一 致 的 图 像 。 例 如 ,人 们 不 仅 能 识别 菜 一 个 具体 的 字 
母 A, 也 能 识别 印刷 体 的 、 手 写 体 的 、 方 向 不 正 、 大 小 不 同 的 各 种 字母 
A。 这 束 提 示 我 们 匹配 过 程 不 应 基于 完全 相同 的 比较 而 是 应 基于 茶 种 相 
似 性 的 度量 。 






































13.1.3 关键 概念 


下 面 介 绍 一 些 识别 中 常用 的 重要 概念 。 

e 模式 类 (pattern class) 

模式 类 是 指 共 享 一 组 共同 属性 (或 特征 〉 的 模式 集合 ， 通 常 具 有 相 
同 的 来 源 。 

e 特征 (feature) 

特征 是 一 种 模式 区 别 于 男 一 种 模式 的 相应 (本 质 〉 特 点 或 特性 ， 是 
通过 测量 和 或 处 理 能 够 抽取 的 数据 。 

e@ 噪声 (noise) 

噪声 是 指 与 模式 处 理 ( 特 征 抽取 中 的 误差 〉 和 “或 )》 训 练 样 本 联合 
的 失真 ， 它 对 系统 的 分 类 能 力 《〈 如 识别 ) 产生 影响 。 

e@ 分 类 /识别 (classification/Recognition) 

分 类 /识别 (classification〉 是 指 根据 特征 将 模式 分 配给 不 同 的 模式 
类 ， 识 别 出 模式 的 类 别 的 过 程 。 

e@ 分 类 器 〈classifier) 

分 类 器 可 理解 为 为 了 实现 分 类 而 建立 起 来 某 种 计算 模型 ， 它 以 模式 
特征 为 输入 ， 输 出 该 模式 所 属 的 类 别 信息 。 

e 训练 样本 (training sample) 

训练 样本 是 一 些 类 别 信 息 已 知 的 样本 ， 通 第 使 用 它们 来 训练 分 类 








-> 





e 训练 集合 (training set) 

训练 样本 所 组 成 的 集合 。 

e@ 训练 /学 习 (training/learning) 

训练 /学 习 是 指 根据 训练 样本 集合 ,，“ 教 授 ” 识 别 系统 如 何 将 输入 矢量 
映射 为 输出 矢量 的 过 程 。 


e 测试 样本 (testing sample) 

测试 样本 是 一 些 类 别 信 息 对 于 分 类 器 未 知 〈 不 提供 给 分 类 器 其 类 别 
言 恩 ) 的 样本 ， 通 利 使 用 它们 来 测试 分 类 器 的 性 能 。 

e 测试 集合 (testing set) 

测试 样本 所 组 成 的 集合 。 当 测试 集合 与 训练 集合 没有 交集 时 ， 称 为 
独立 的 测试 集 。 

e 测试 (testing) 

测试 是 将 测试 样本 作为 输入 送 入 已 训练 好 的 分 类 器 ， 得 到 分 类 结果 
并 对 分 类 正确 率 进行 统计 的 过 程 。 

e@ 识别 率 〈accuracy ) 

识别 率 是 指 对 于 某 一 样本 集合 而 言 ， 经 分 类 器 识别 正确 的 样本 占 总 
样本 数 的 比例 。 

e 泛 化 精度 (generalization accuracy ) 


分 类 强 在 独立 于 训练 样本 的 测试 集合 上 的 识别 率 。 














13.1.4 识 列 问题 的 一 般 摘 述 


一 个 模式 识别 问题 一 般 可 描述 为 : 在 训练 样本 集合 已 经 “教授 ”给 识 
别 系统 如 何 将 输入 舌 量 映射 为 输出 天 量 的 前 担 下 ， 已 知 一 个 从 样本 模式 
中 抽取 的 输入 特征 集合 (或 输入 矢量 ): X={xx,,x}， 寻 找 一 个 根 
据 预 定义 标准 与 输入 特征 匹配 的 相应 特性 集合 (输出 矢量 ): Y={yuy，， 
ym}e 

这 其 中 对 于 类 别 已 知 的 样本 参与 的 训练 过 程 ， 可 参考 图 13.1 (a) ， 
此 时 样本 的 类 别 信息 Y 是 已 知 的 ， 它 同 训练 样本 X 一 起 参与 分 类 器 的 训 
练 ， 而 图 13.1(b》 中 的 识别 正 是 利用 训练 得 到 的 分 类 器 将 输入 模式 X 映 
射 为 输出 类 别 信息 Y 的 过 程 。 实 际 上 ， 我 们 不 妨 将 训练 过 程 理 解 为 一 种 
在 输入 XX 和 输出 Y 均 已 知 的 情况 下 确定 函数 Y = f(X) 具 体形 式 的 函数 拟 合 





过 程 ， 而 识别 过 程 则 可 理解 为 将 类 别 未 知 的 模式 X 作 为 { 的 输入 ， 从 而 计 
算出 Y 的 函数 求 值 过 程 。 当 然 ， 这 里 的 函数 {很 可 能 不 具有 解析 形 式 ， 有 
时 会 相当 复杂 ， 筷 代表 着 一 种 广义 上 的 映射 关系 。 








(b) 识别 过 程 


A 图 13.1 训练 和 识别 过 程 


在 第 12.1.3 小 节 中 讨论 特征 癌 量 及 其 几何 解释 时 ， 我 们 曾 指出 了 识 
别 ( 分 类 ) 的 任务 就 是 找到 对 特征 空间 的 一 种 合理 划分 。 分 类 器 将 特征 
空间 分 成 标记 为 类 别 的 决策 区 域 ， 对 于 唯一 的 分 类 结果 ， 这 些 区 域 必 须 
履 兰 整个 特征 空间 且 不 相交 ， 而 每 个 区 域 的 边缘 称 为 决策 边界 。 从 这 个 
意义 上 说 分 类 占 就 是 分 割 决策 区 域 的 决策 边 界 函 数 集合 ， 图 13.2 给 出 
了 一 些 典 型 的 决策 区 域 和 决策 边界 。 对 特征 矢量 的 分 类 就 是 确定 它 属 于 
那个 决策 区 域 的 过 程 。 











(a) 线性 的 决策 边界 (b) 二 次 决策 边界 (c) 更 为 复杂 的 决策 边界 


和 图 13.2 二 维 空间 中 的 决策 区 域 


13.1.5 过 度 拟 合 


在 图 13.2 中 ， 我 们 注意 到 决策 边界 既 可 以 是 图 13.2 (a) 、(b) 中 
那样 简单 的 线性 或 二 次 形式 ， 也 可 以 像 图 13.2(c) 中 的 那样 极其 复杂 
且 不 规则 。 那 么 ， 对 于 一 个 特定 的 分 类 问题 ， 我 们 是 应 当选 择 简 单 的 模 
型 还 是 比较 复杂 的 模型 呢 ? 一 般 来 说 ， 简 单 的 模型 具有 计算 复杂 度 上 的 
优势 ， 训 练 它 们 所 需 的 样本 数目 通常 也 更 少 ， 但 它们 对 空间 的 划分 往往 
不 够 精确 ， 导 致 识别 精度 受到 一 定 的 限制 ， 而 复杂 的 模型 可 以 更 好 地 拟 
合 训 练 样本 ， 产 生 非 常 适应 训练 数据 的 复杂 决策 边界 ， 从 而 有 理由 期 望 
它们 在 测试 集 上 也 会 有 好 的 表现 。 然 而 ， 这 一 美好 的 愿望 并 不 总 能 实 
现 ， 事 实 上 ， 过 度 复杂 的 决策 边界 常常 导致 所 谓 * 过 度 拟 合 ” 现 象 的 发 
生 ， 正 如 例 13.1 中 所 描述 的 那样 。 

[ 例 13.1] 过 度 拟 合 现象 。 

对 于 图 13.3 中 (a) 中 的 两 类 训练 样本 ， 有 如 图 13.3 (a) 中 所 示 的 
两 种 分 类 策略 ， 一 个 简单 的 二 次 曲线 和 另 一 个 复杂 得 多 的 不 规则 曲线 。 
我 们 看 到 在 图 13.3 〈a) 中 不 规则 曲线 完美 地 分 类 了 所 有 的 训练 样本 ， 
无 一 差错 ; 而 当面 对 从 未 见 过 的 测试 样本 时 [ 见 图 13.3 (b) ]， 复 杂 曲 线 
的 表现 令 人 大 失 所 望 ， 它 将 一 大 部 分 “实心 圆 ”类 样本 错 分 为 “空心 

















> 次 曲线 却 工 作 得 相当 好 。 守 其 原因 ， 主 要 是 过 度 复 杂 
的 决策 边界 不 能 够 对 新 数据 进行 很 好 地 归纳 ( 泛 化 ， 一 般 化 ) ， 它 们 过 
于 倾 问 对 训练 数据 的 正确 划分 〈“ 复 杂 的 形式 正好 为 它们 完美 地 拟 合 训练 
数据 创造 了 条 件 ) ， 而 不 能 够 对 真正 的 数据 模型 进行 很 好 地 分 类 。 这 个 
问题 称 为 过 度 拟 合 〈Overfit) 。 简 单 的 决策 边界 对 训练 数据 不 够 理想 ， 
但 是 对 新 数据 却 往 往 能 够 较 好 地 归纳 。 





训练 数据 测试 数据 





(a) 对 训练 样本 的 划分 (b) 对 测试 样本 的 划分 
A 图 13.3 过 度 拟 合 
13.1.6 模式 识别 系统 结 枚 


本 节 最 后 ， 图 13.4 为 我 们 展示 了 一 个 典型 的 模式 识别 系统 的 结 
构 。 原 始 模式 首先 经 过 预 处 理 〈 本 书 的 第 3 一 11 章 讨论 的 主要 是 图 像 预 
处 理 的 方法 ) ;而 后 经 过 特征 提取 《第 12 章 ) 得 到 适合 分 类 髓 处 理 的 特 
征 问 量 ， 此 过 程 中 有 时 也 包括 必要 的 降 维 处 理 ; 最 后 分 类 顺 输 出 的 识别 
结果 常常 还 需要 后 处 理 ， 所 谓 后 处 理 主要 指 根据 得 到 的 识别 结果 进行 评 
估 和 改进 ， 像 如 何 调整 分 类 器 参数 以 防止 过 上 度 拟 合 等 





允 处 理 


预 处 理 后 的 模式 






降 弘 处 理 - 通常 在 预 处 理 
和 特征 提取 中 完成 i 





A 图 13.4 一 个 典型 的 模式 识别 系统 








一 般 的 训练 /学 习 过 程 是 指 在 给 定 一 般 的 模型 或 分 类 器 形式 的 情况 
下 ， 利 用 训练 样本 去 学 习 和 估计 模型 的 未 知 参数 ， 上 有 具体 地 说 就 是 用 某 种 
算法 来 降低 训练 样本 的 分 类 误 甜 。 例 如 在 第 14 音 人 工 神 经 网 络 中 将 要 学 
习 的 梯度 下 降 算法 ， 它 通过 调节 分 类 器 的 参数 ， 使 训练 朝 着 能 够 降低 误 
差 的 方 同 进行 。 还 有 很 多 其 他 形式 的 学 习 算法 ， 通 党 可 分 为 以 下 几 种 形 
Fs 

e 教师 指导 的 学 习 : 又 称 为 有 监督 学 习 。 是 指 在 训练 样本 集中 的 每 
个 输入 样本 类 别 均 已 知 的 情况 下 进行 学 习 ， 也 就 是 使 用 训练 模式 和 相应 
的 类 别 标记 一 起 来 教授 分 类 器 。 日 常生 活 中 有 监督 学 习 的 一 个 例子 是 教 
孩子 识字 ， 教 师 将 字 本 身 〈 样 本 ) 和 有 具体 是 什么 字 〈 类 别 ) 一 起 教 给 孩 
了 

e 无 教师 指导 的 学 习 : 又 称 为 无 监督 学 习 。 是 指 在 样本 中 没有 相应 
的 类 别 信息 的 情况 下 ， 系 统 对 输入 样本 自动 形成 “自然 的 ”组 织 或 簇 
Ccluster) 。 如 “ 聚 类 算法 ”就 是 一 种 典型 的 无 监督 学 习 。 














e 加 强 学 习 : 又 称 为 基于 评价 的 学 习 。 在 加 强 学 习 中 ， 并 不 把 类 别 
信息 直接 提供 给 分 类 需 ， 而 是 让 分 类 品目 己 根 据 输入 样本 计算 输出 关 
别 ， 将 它 与 已 知 的 类 别 标记 进行 比较 ， 判 断 对 已 知 训练 模式 的 分 类 是 否 
正确 ， 从 而 辅助 分 类 器 的 学 习 。 日 常生 活 中 加 强 学 习 的 一 个 例子 是 提供 
正确 答案 的 考试 讲评 ， 这 里 考生 就 相当 于 分 类 器 ， 他 们 先是 独立 考试 
(分 类 ) ， 而 后 根据 教师 提供 的 标准 答案 来 改善 知识 体系 〈 分 类 器 模 


型 ) 。 














有 两 种 基本 的 模式 识别 方法 ， 即 统计 模式 识别 (statistical pattern 
recognition ) 方法 和 句法 《结构 ) 模式 识别 (syntactic pattern 
recognition ) 方法 。 统 计 模 式 识 别 是 对 模式 的 统计 分 类 方法 ， 即 结合 统 
计 概 率 论 的 贝 叶 斯 决策 系统 [2] 进 行 模式 识别 的 技术 ， 又 称 为 决策 理论 识 
别 方法 ; 而 利用 模式 与 子 模式 分 层 结 构 的 树 状 信息 所 完成 的 模式 识别 工 
作 ， 就 是 句法 (结构 ) 模式 识别 。 








13.2.1 统计 模式 识别 








统计 模式 识别 的 基本 原理 是 有 相似 性 的 样本 在 模式 空间 中 互相 接 
近 ， 并 形成 “集团 "， 即 “ 物 以 类 聚 "。 其 分 析 方 法 是 根据 模式 所 测 得 的 特 
征 向 量 X=(x .TI ，《〈i=12,...,N) ， 将 一 个 给 定 的 模式 归 入 C 个 
类 WwW Wi1,…, We 中 ， 可 视 为 根据 模式 之 间 的 某 种 距离 函数 来 判别 分 类 。 
其 中 ，TI 表 示 转 置 ，N 为 样本 数目 ，d 为 样本 特征 向 量 的 维 数 。 

在 统计 模式 识别 中 ， 贝 叶 斯 诀 策 规则 从 理论 上 解决 了 最 优 分 类 器 的 
设计 问题 ， 但 其 实施 却 必须 先 解决 更 困难 的 概率 密度 估计 问题 ，BP 神 
经 网 络 直接 从 观测 数据 (训练 样本 〉 学习， 是 更 简便 有 效 的 方法 ， 因 而 





获得 了 广泛 的 应 用 ， 但 它 是 一 种 局 发 式 技术 ， 缺 乏 工 程 实践 的 坚实 理论 
基础 ， 统 计 推 断 理 论 研究 所 取得 的 突破 性 成 果 导 致 现代 统计 和 学习 理论 
一 一 VC 维 的 建立 ， 该 理论 不 仅 在 严格 的 数学 基础 上 圆满 地 回答 了 人 工 
神经 网 络 中 出 现 的 理论 问题 ， 而 且 导 出 了 一 种 新 的 学 习 方 法 一 一 文 持 问 
量 机 。 











13.2.2 句法 模式 识 昂 





句法 模式 识别 又 称 结构 方法 或 语言 学 方法 。 其 基本 思想 是 把 一 个 模 
式 描述 为 较 简单 的 子 模式 的 组 合 ， 子 模式 又 可 描述 为 更 简单 的 子 模 式 的 
组 合 ， 最 终 得 到 一 个 树 形 的 结构 描述 ， 在 底层 的 最 简单 的 子 模式 称 为 模 
起 是 元 。 

在 句法 方法 中 选取 基 元 的 问题 相当 于 在 统计 方法 中 选取 特征 的 问 
题 。 通 常 要 求 所 选 的 基 元 能 对 模式 提供 一 个 紧凑 的 反映 其 结构 关系 的 描 
述 ， 又 要 易于 用 非 句法 方法 加 以 抽取 。 显 然 ， 基 元 本 身 不 应 该 含有 重要 
的 结构 信息 。 模 式 以 一 组 基 元 和 它们 的 组 合 关 系 来 描述 ， 称 为 模式 描述 
语句 ， 这 相当 于 在 语言 中 ， 句 子 和 短语 用 词组 合 ， 词 用 字符 组 合 一 样 。 
基 元 组 合成 模式 的 规则 ， 由 所 谓语 法 来 指定 。 一 旦 基 元 被 鉴别 ， 识 别 过 
程 可 通过 人 句法 分 析 进 行 ， 即 分 析 给 定 的 模式 语句 是 否 符 合 指定 的 语法 ， 
满足 某 类 语法 的 即 被 分 入 该 类 。 可 以 说 句法 模式 识别 是 基于 对 结构 相似 
性 的 测量 量 来 分 类 模式 。 该 方法 不 但 可 以 用 于 分 类 ， 也 可 以 用 于 描述 。 

[ 例 13.2] 统 计 方 法 与 句法 (结构 ) 方法 的 比较 。 

图 13.5 给 出 了 对 于 光学 字符 识别 (OCR) 问题 统计 方法 与 结构 化 
方法 在 解决 问题 上 的 不 同 思路 。 同 样 对 于 上 方 的 字母 “<A”， 采 用 统计 方 
法 的 一 种 可 能 做 法 是 : 选取 特征 为 字母 中 交叉 点 的 数目 ， 左 、 右 斜 线 的 
数目 ， 横 的 数目 以 及 孔洞 的 数目 ， 这 样 字 母 “A” 变 成 了 图 中 所 示 的 1 个 特 
征 回 量 xy=(3 22 11)! ， 如 概率 分 布 已 知 ， 则 可 计算 出 似 然 函数 























P(xsl“A”)， 从 而 构造 贝 叶 斯 分 类 器 ， 这 一 过 程 反映 在 图 13.5 的 中 间 分 支 
上 。 男 一 种 选择 是 不 经 过 特征 提取 ， 直 接 将 包含 字母 “A” 的 矩形 区 域 所 
有 像素 的 像素 值 〈 这 里 为 0 或 1， 和 白色 背景 为 0， 黑 色 字 母 为 1) 按 行 或 按 
列 存 储 作为 特征 向 量 ， 送 给 训练 好 的 神经 网 络 进行 识别 ， 这 一 过 程 如 图 
中 左 侧 分 支 所 示 。 而 当 我 们 采用 句法 (结构 ) 方法 时 ， 字 母 “A” 被 看 成 
是 图 13.5 右 侧 分 支 所 示 的 一 些 子 结构 〈 比 划 ) 的 组 合 ， 这 些 子 结构 有 各 
自 的 结构 和 方向 并 且 按 照 一 定 的 规则 组 合 在 一 起 ， 最 终 这 些 子 结构 连同 
它们 之 间 的 规则 被 一 并 送 解析 器 〈Parser) 进行 类 似 于 句法 分 析 的 处 理 
从 而 识别 出 类 别 。 
需要 说 明 的 是 作为 一 个 例子 ， 图 13.5 左 侧 分 支 中 向 量 在 送 神 经 网 

络 之 前 没有 经 过 特征 提取 ， 这 只 是 选择 之 一 ， 在 实际 应 用 中 神经 网 络 的 
输入 也 常常 是 经 过 特征 提取 的 向 量 ， 同 样 类 似 于 x 那样 经 过 特征 提取 的 
回 量 可 以 用 作 多 种 分 类 器 的 输入 ， 而 不 仅仅 是 贝 叶 斯 模型 。 

















| 
统计 方法 〈 神 经 网 络 ) ”统计 方法 〈 贝 叶 斯 》 句法 【结构 ) 方法 


特征 提取 : 

# 交 叉 点 数目 

# 左 斜 线 数目 / 证 \ 

# 右 斜 线 数 目 人 

# 横 线 数目 和 

# 孔 洞 数目 

.概率 模型 es 

xz=[3 2 2 1 1] 一 -一 P(x|"A) 


P(fi,fslo1) 


X27= 











”神经 网 络 也 可 与 特征 提取 结合 


A 图 13.5 统计 方法 与 句法 (结构 ) 方法 比较 示意 
和 9. 六 多 


模式 识别 方法 的 选择 取决 于 问题 的 性 质 。 如 果 被 识别 的 对 象 极为 复 
杂 ， 而 且 包 含 丰 富 的 结构 信息 ， 一 般 采 用 句法 方法 ; 被 识别 对 象 不 很 复 
杂 或 不 含 明显 的 结构 信息 ， 一 般 采 用 统计 方法 。 这 两 种 方法 不 能 截然 分 
开 ， 在 句法 方法 中 ， 基 元 本 身 就 是 用 统计 方法 抽取 的 。 在 应 用 中 ， 将 这 
两 种 方法 结合 起 来 分 别 施 加 于 不 同 的 层次 ， 常 能 收 到 较 好 的 效果 。 

本 书 并 不 是 一 本 专门 介绍 模式 识别 的 书籍 ， 后 续 的 讨论 将 不 涉及 句 
法 模式 识别 的 相关 内 容 ， 这 主要 是 出 于 对 本 书 内 容 完 整 性 和 紧 凌 性 的 考 
虑 《句法 模式 以 自然 语言 与 自动 机 为 其 理论 根基 ) ; 同时 我 们 也 不 准备 
从 经 典 的 贝 叶 斯 分 类 理论 开始 ， 对 各 种 统计 模式 识别 技术 一 一 讨论 ， 而 
是 将 着眼 于 目前 统计 模式 识别 领域 中 十 分 活跃 、 和 图 像 识别 关系 密切 并 
且 已 在 工程 技术 领域 获得 广泛 应 用 的 2 种 非常 实用 的 分 类 器 技术 一 -人 
工 神经 网 络 《〈 第 14 章 ) 和 文 持 回 量 机 《第 15 章 ) ,以 及 广泛 应 用 于 特征 
选择 和 特征 加 权 的 Adaboost 技 术 。 
































13.3 最 小 距离 分 类 器 和 模 y 


通过 前 面 两 节 的 学 习 ， 相 信 读 者 已 经 对 模式 识别 和 图 像 识 别 有 了 一 
定 的 认识 ， 对 其 整体 框架 也 有 了 大 人 臻 的 了 解 。 本 节 将 讨论 一 种 具体 的 分 
类 技术 一 一 最 小 距离 分 类 嘎 ， 并 附带 介绍 一 种 专门 针对 于 图 像 内 容 匹 配 
的 基于 相关 的 模板 匹配 技术 。 





13.3.1 最 小 距离 分 类 器 及 其 Matlab 实 现 


1. 理论 基础 


最 小 距离 分 类 叉 称 最 近邻 分 类 ， 是 一 种 非 第 简单 的 分 类 思想 。 这 种 
基于 匹配 的 分 类 技术 通过 以 一 种 原型 模式 癌 量 代 表 每 一 个 类 别 ， 识 别 时 
一 个 未 知 模式 被 赋予 一 个 按照 预先 定 义 的 相似 性 度量 与 其 距离 最 近 的 类 
别 ， 弟 用 的 距离 度量 有 欧 氏 距离 、 马 氏 距 离 等 。 下 面 我 们 以 欧 氏 距离 为 
例 讲解 最 小 距离 分 类 器 。 

一 种 简单 的 做 法 是 把 每 个 类 所 有 样本 的 平均 问 量 作为 代表 该 类 的 原 
型 ， 则 第 类 样本 的 代表 问 量 为 











m; = 之 x B= (13-1) 
式 中 : nj; 为 第 i 样本 的 数目 ，Wi 表 示 第 类 样本 的 集合 ; 忆 类 别 数 为 
W。 
当 需 要 对 一 个 未 知 模式 X 进 行 分 类 时 ， 只 需 分 别 计算 Xx 与 各 个 
m;〈i=1,2,.….,W) 的 距离 ， 然 后 将 它 分 配给 距离 最 近 的 代表 向 量 所 代表 
的 类 别 。 


对 于 欧 氏 距离 表示 的 x 与 各 个 mi 的 距离 ， 有 
D(x)=||x—m; | i=1,2,.…,W (13-2) 


其 中 ，||x-mill=(( x-mi)! (xm ， 表 示 欧 几 里 的 范 数 ， 即 向 量 的 
模 。 我 们 在 W 个 D;(x) 中 找到 最 小 的 一 个 ， 不 妨 设 为 Di(x)， 则 x 属于 第 j 
类 。 下 面 让 我 们 来 看 一 个 使 用 最 小 距离 分 类 器 的 实例 ， 请 读者 思考 最 小 
距离 分 类 器 具有 怎样 的 决策 边界 。 

2. Matlab 实 现 

下 面 通过 例 13.3 给 出 最 小 距离 分 类 器 的 实现 方法 。 

[ 例 13.3] 基于 最 小 距离 分 类 器 的 鸠 尾 属 植物 分 类 

这 里 仍 以 Matlab 自 带 的 荧 尾 属 植物 数据 集 为 例 ， 要 利用 最 小 距离 分 

















类 器 区 分 测试 集中 的 样本 属于 哪 一 类 植物 。 数 据 集 共 有 setosa、 
versicolor 和 virginica 三 类 总 尾 属 植物 。 载 入 fisheriris 数 据 集 之 后 ，meas 
中 共 包 含 了 150 个 植物 样本 ，meas 和 矩阵 的 每 一 行 是 代表 一 个 植物 样本 的 
特征 问 量 ， 该 特征 问 量 的 含义 可 参见 例 10.1; 而 细胞 数组 species 中 包含 
了 对 应 着 150 个 样本 的 类 别 信 息 ， 从 中 可 见 前 50 个 样本 为 第 1 类 ， 中 间 50 
个 为 第 2 类 ， 后 50 个 属于 第 3 类 。 实 验 中 我 们 利用 每 类 的 前 40 个 样本 生成 
代表 该 类 的 模板 ， 后 10 个 被 保留 至 一 个 独立 的 测试 集 ， 用 于 验证 最 小 距 
离 分 类 器 的 识别 率 。 
计算 每 个 测试 样本 与 3 类 模板 向 量 最 小 距离 ， 并 且 将 与 测试 样本 中 8 
离 最 近 的 模板 癌 量 所 代表 的 类 作为 测试 样本 的 类 标号 的 关键 代码 如 下 。 
forii= 1:size(Test, 1) 
d(1) = norm(Test(ii, :) - m1); % 与 第 1 类 的 距离 
d(2) = norm(Test(ii, :) - m2); % 与 第 2 类 的 距离 
d(3) = norm(Test(ii, :) - m3); % 与 第 3 类 的 距离 
[minVal class(ii)] = min(d); % 计 算 最 小 距离 并 将 距离 样本 最 短 的 类 
赋 给 类 标签 数组 class 
end 
利用 最 小 距离 分 类 器 分 类 3 种 高 尾 属 植物 的 完整 实现 代码 如 下 ， 它 
位 于 金 羽 图 书 论坛 (http://bbs.book95.com)〉 的 “ 金 羽 图 书 与 答疑 "板块 与 
本 书 同名 的 主题 帖子 附件 第 13 章 目 录 下 的 nearest.m 文 件 中 。 
% 例 13.3 利用 最 小 距离 分 类 器 分 类 3 种 辫 尾 属 植物 
load fisheriris 9% 载 入 Matlab 上 自 带 的 竟 尾 属 植物 数据 集 
% 每 类 的 前 40 个 样本 用 于 生成 代表 该 类 的 模板 ， 后 10 个 作为 独立 的 
测试 样本 
ml = mean( meas(1:40, :) ); % 第 1 类 的 前 40 个 样本 的 平均 同 量 
m2 = mean( meas(51:90, :) ); % 第 2 类 的 前 40 个 样本 的 平均 回 量 
m3 = mean( meas(101:140, :) ); % 第 3 类 的 前 40 个 样本 的 平均 同 量 























% 测试 样本 集 
Test = [meas(41:50, :); meas(91:100, :); meas(141:150, :)]; 
% 测试 样本 集 对 应 的 类 别 标签 
classLabel(1:10) = 1; 
ClassLabel(11:20) = 2; 
classLabel(21:30) = 3; 
% 利用 最 小 距离 分 类 强人 分 类 测试 样本 
class = Zeros(1, 30); % 类 标签 
forii = 1:size(Test, 1) 
d(1) = norm(Test(ii, :) - m1); % 与 第 1 类 的 距离 
d(2) = norm(Test(ii, :) - m2); % 与 第 2 类 的 距离 
d(3) = norm(Test(ii, :) - m3); % 与 第 3 类 的 距离 
[minVal class(ii)] = min(d); % 计 算 最 小 距离 并 将 距离 样本 最 短 的 类 











赋 给 类 标签 数组 class 


end 

% 测试 最 小 距离 分 类 器 的 识别 率 

nErr = sum(class 一 = classLabel); 

rate = 1 - nErr / length(class); 

strOut = 了 [识别 紊 为 ', num2str(rate)] 

运行 上 述 程序 ， 最 终 得 到 对 于 30 个 测试 样本 的 识别 率 为 96.666 





7%。 我 们 看 到 ， 在 这 个 简单 的 3 类 问题 上 ， 最 小 距离 分 类 器 取得 了 不 错 
的 效果 。 


13.3.2 基 关 的 模 忆 


1. 理论 基础 
基于 相关 的 模板 匹配 技术 可 直接 用 于 在 一 幅 图 像 中 寻找 某 种 子 图 像 








模式 。 回 顾 在 第 5 章 空间 域 图 像 增强 中 ， 曾 经 介绍 了 图 像 相 关 的 基本 概 
念 ， 对 于 大 小 为 MxN 的 图 像 f(x, y) 和 大 小 为 JxK 的 子 图 像 模 式 w(x, y), ff 
与 Ww 的 相关 可 表示 为 





ce(xy)= 3 Ww(s,t)f (x+s, y+t) (13-3) 
s=0 t=0 

其中 实 S0. D2 NK YS0 1 2 .Me 这 一 计算 形式 与 芭 
(5-2) 稍 有 不 同 ， 此 处 的 目的 是 寻找 匹配 而 不 是 对 f(x, y) 进 行 滤波 操 
作 ， 因 此 w 的 原点 被 设置 在 子 图 像 的 左上 角 ， 并 且 式 (13-3) 给 出 的 形 
式 也 完全 适用 于 J 和 K 为 偶数 的 情况 。 

计算 相关 c(x, y) 的 过 程 就 是 在 图 像 f{(x，y) 中 逐 点 地 移动 子 图 像 w(x， 
y)， 使 w 的 原点 和 点 (x，y) 重 合 ， 然 后 计算 w 与 f 中 被 w 履 盖 的 图 像 区 域 对 
应 像素 的 乘积 之 和 ， 以 此 计算 结果 作为 相关 图 像 c(x, y) 在 (x, y) 点 的 响 
应 。 

相关 可 用 于 在 图 像 f(x, y) 中 找到 与 子 图 像 w(x, y) 匹 配 的 所 有 位 置 。 
实际 上 ， 当 w 按 照 上 一 段 中 描述 的 过 程 移 过 整 幅 图 像 f 之 后 ， 最 大 的 响应 
点 (xo, yo) 即 为 最 佳 匹配 的 左上 角 点 。 我 们 也 可 以 设 定 一 个 阔 值 T， 认 为 
响应 值 大 于 该 阔 值 的 点 均 是 可 能 的 匹配 位 置 。 

相关 的 计算 是 通过 将 图 像 元 素 和 子 模式 图 像 元 素 联系 起 来 获得 的 ， 
将 相关 元 素 相 乘 后 累加 。 我 们 完全 可 以 将 子 图 像 w 视 为 一 个 按 行 或 按 列 
存储 的 向 量 b ， 将 计算 过 程 中 被 w 覆 六 的 图 像 区 域 视 为 另 一 个 按照 同样 
的 方式 存储 的 向 量 4 。 这 样 一 来 ， 相 关 计算 就 成 了 向 量 之 间 的 点 积 运 
和 

两 个 向 量 的 点 积 大 


























deb =|allb|cosO (13-4) 


其 中 ，9 为 向 量 #、b 之 间 的 夹 角 。 显 然 ， 当 #5 和 4b 具有 完全 相同 的 
方向 (平行 ) 时 ，cos9=1， 从 而 式 (13-4) 取得 其 最 大 值 |6 5 |， 这 就 意 
味 着 当 图 像 的 局 部 区 域 类 似 于 子 图 像 模 式 时 ， 相 关 运 算 产 生 最 大 的 响 
应 。 然 而 ， 式 (13-4) 最 终 的 取 值 还 与 向 量 #、b 自身 的 模 有 关 ， 这 将 
导致 按照 式 (13-4) 计算 的 相关 响应 存在 着 对 fw 的 灰 度 幅 值 比较 敏感 
的 缺陷 。 这 样 一 来 ， 在 人 的 高 灰 度 区 域 ， 可 能 尽管 其 内 容 与 子 图 像 w 的 内 
容 并 不 相近 ， 但 由 于 人 | 自身 较 大 而 同样 产生 一 个 很 高 的 响应 。 可 通过 对 
向 量 以 其 模 值 来 归 一 化 从 而 解决 这 一 问题 ， 即 通过 12 | 2 | 来 计算 相关 。 

改进 的 用 于 匹配 的 相关 计算 公式 如 下 。 























a 
DD ws,t)f (x+s,y +t) 
r(x, 7) = 一 一 一 一 (13-5) 


二 所 天 、 We 1/2 
站 w (3 人 1) >》 》 广 (x+sy+D 


s=0 t=0 s=0 f=0 





改进 的 相关 公式 实际 上 计算 的 是 向 量 #、b 之 间 的 夹 角 余弦 值 。 显 
然 ， 它 只 和 图 案 模 式 本 身 的 形状 或 纹理 有 关 ， 与 幅 值 (亮度 ) 无 关 。 

2. Matlab 实 现 

下 面 通 过 例 13.4 给 出 基于 相关 的 模板 匹配 的 实现 方法 。 

[ 例 13.4] 基 于 相关 的 图 像 匹配 。 

图 13.6 (a) 中 黑色 背景 的 图 像 中 包含 有 12 种 不 同 的 图 案 模式 ， 要 在 
图 13.6 (a) 中 找到 图 13.6 (b) 和 图 13.6〈c) 中 的 子 图 像 的 最 佳 匹 配 。 
图 13.6 (b) 中 的 图 像 对 应 着 图 13.6 (a) 中 第 2 行 的 第 2 个 小 图 案 ， 但 整 
体 亮度 较 其 在 图 13.6 〈(a) 中 更 暗 ， 而 图 13.6〈c) 中 的 图 像 则 与 图 
13.6 (a) 中 第 3 行 的 第 2 个 小 图 案 相 似 ， 略 有 区 别 。 








(a) 原 图 像 (b) 子 图 像 (c) 子 图 像 2 








(d) 子 图 像 (b) 在 (a) 中 的 匹配 (e) 子 图 像 〈c) 在 (a) 中 的 匹配 


和 图 13.6 基于 相关 的 图 像 匹 配 


我 们 编写 了 imcorr 函数 实现 图 像 相关 ， 代 人 码 如 下 。 该 函数 被 封装 在 
金鸡 图 书 论坛 〈http:/bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 "板块 与 本 书 
同名 的 主题 帖子 附件 的 “chapter13/code/” 目 录 下 的 imcorr.m 文 件 中 。 

function Icorr = imcorr(], w) 

% function corr = imcorr(], w, ) 

% 计算 图 像 I 与 子 模式 w 的 相关 响应 ， 并 提示 最 大 的 啊 应 位 置 

% 

% Input: I- 原始 图 像 

% w - 子 图 像 

% 

% Output: Icorr - 啊 应 图 像 


[m, n| = sizel(]); 

[m0, n0] = size(w); 

Icorr = zeros(m-m0+1, n-n0+1); % 为 啊 应 图 像 分 配 空 间 
vecW = double( w(:) ); % 按 列 存储 为 向 量 

normW = norm(vecW); % 模 式 图 像 对 应 同 量 的 模 


forii= 1:m-m0+1 





for jj = 1:n-nO+1 
subMat = I(ii:ii+mO0-1, jj:jj+n0-1); 
vec = double( subMat(:) ); % 按 列 存储 为 向 量 
Icorr(ii, jj) = vec' * vecW / (norm(vec)*normW+eps); % 计 算 当 前 位 


置 的 相关 





end 
end 
9% 找到 最 大 啊 应 位 置 


[iMaxRes, jMaxRes] = find(Icorr == max( Icorr(:) ) ); 
figure, imshow(D; 
hold on 
forii= 1:length(iMaxRes) 
plotGjMaxRes(iD), iMaxRes(iD, *"); % 绘 制 最 大 啊 应 点 
% 用 矩形 框 标记 出 匹配 区 域 
plot([]jMaxRes(ii), jMaxRes(ii)+n0-1], [iMaxRes(ii), iMaxRes(ii)|] ); 
plot([jMaxRes(ii)+n0-1, jMaxRes(ii)+n0-1], [iMaxRes(ii), 
iMaxRes(ii)+m0-1] ); 
plot([jMaxRes(ii), ]jMaxRes(ii)+n0-1], [iMaxRes(ii)+m0-1, 
iMaxRes(ii)+m0-1] ); 
plot([jMaxRes(ii), JjMaxRes(ii)], [i MaxRes(ii), iMaxRes(ii)+m0-1] ); 


end 


imcorr 函 数 中 根据 相关 啊 应 的 结果 ， 分 别 将 对 图 13.6 〈b) 和 图 
13.6《〈c) 响应 的 最 大 值 用 “*” 号 标记 在 图 13.6(d) 和 图 13.6 〈e) ， 并 用 
和 矩形 给 出 了 相应 的 匹配 区 域 。 该 函数 的 调用 方式 如 下 。 

>> I = imread('patterns.bmp'); 

>> I1 = imread('pat1.bmp’); 

>> I2 = imread('pat2.bmp’); 

>> J1 = imcorr(]l, 11); 

>> max(J1(:)) 

ans = 

1.0000 

>> J2 = imcorr(l, I2); 

>> max(J2(:)) 

ans = 

0.9784 

上 述 程 序 运 行 后 对 图 13.6 (b) 、〈c) 子 图 像 的 匹配 结果 如 图 
13.6〈d) 、(e) 所 示 。 我 们 发 现 ， 两 次 匹配 都 只 找到 了 一 个 最 大 值 ， 
由 于 图 13.6 (a) 中 包含 了 与 图 13.6 (b) 中 子 图 像 纹理 结构 完全 相同 的 
图 像 区 域 ， 只 是 整体 明暗 不 同 ， 因 此 相关 啊 应 中 最 大 值 max(J1(:)) = 1; 
而 与 图 13.6(c) 的 相关 啊 应 最 大 值 为 0.9784， 这 也 正 说 明了 图 13.6 (c) 
中 子 图 像 模式 与 图 13.6 〈a) 中 的 最 佳 匹 配 区 域 并 不 完全 相同 。 

虽然 我 们 之 前 通过 向 量 模 值 的 归 一 化 得 到 了 幅 值 ( 腕 度 ) 不 变 的 相 
天 匹配 算 子 ， 但 相关 计算 仍然 对 尺寸 和 旋转 变换 非常 敏感 。 如 果子 图 像 
Ww 与 图 像 f 中 对 应 的 相似 目标 大 小 不 同 ， 则 一 般 来 说 很 难得 到 满意 的 匹配 
结果 。 为 了 解决 这 一 问题 ， 有 时 需要 采用 多 种 分 辩 率 扫描 原 图 像 f， 计 
算 相关 ， 在 各 个 分 辨识 下 寻找 可 能 的 匹配 位 置 ， 这 在 计算 量 上 的 需求 可 
想 而 知 ， 因 而 很 难 在 实际 系统 中 使 用 。 类 似 的 ， 如 果 旋 转变 化 的 性 质 是 
未 知 的 ， 则 寻找 最 佳 匹 配 就 要 求 对 w 进 行 全 方位 的 旋转 。 更 多 的 时 候 ， 























我 们 需要 利用 对 问题 的 先 验 知识 得 到 有 关 尺 寸 和 旋转 变换 方式 的 一 些 线 
索 ， 从 而 可 以 借助 几何 变换 中 的 一 些 技术 在 匹配 之 前 对 这 些 变换 进行 归 
一 化 处 理 。 








一 般 子 图 像 模式 w 忆 是 比 图 像 f 要 小 得 多 。 尺 管 如 此 ， 除 非 w 非 第 
小 ， 人 否则 例 13.4 中 采用 的 空间 相关 算法 的 计算 量 都 会 比较 大 ， 以 全 于 总 
征 要 依靠 硬件 来 实现 。 

种 提升 计算 效率 的 方法 是 在 频 域 中 实现 相关 ， 回 忆 第 6 章 中 曾 学 
习 过 的 卷 积 定理 ， 它 为 我 们 建立 了 空间 卷 积 和 频 域 乘积 之 间 的 对 应 天 
系 。 类 似 的 ， 通 过 相关 定理 可 以 将 空间 相关 与 频 域 乘积 联系 起 来 。 相 关 
定理 中 指出 了 两 个 函数 的 空间 相关 可 以 用 一 个 函数 的 传 立 叶 变 换 同 力 一 
个 函数 的 傅立叶 变换 的 传 共 力 的 乘积 的 传 立 叶 逆 变 换 得 到 ， 当 然 反 过 来 
也 成 立 ， 即 














f(x,y)ow(x,y) Fu, v)H (u,v) (13-6) 
f(x,y)w (x%, y)SOF(u,v)oH(u,v) (13-7) 


其 中 ,“D” 表 示 相 关 ，“*” 表 示 复 共 圈 。 
下 面 给 出 了 按照 上 述 思 路 在 频 域 下 实现 相关 ， 再 变换 回 空域 得 到 响 
应 图 像 Icorr 的 Matlab 实 现 函 数 dftcorr， 它 被 封装 在 金 羽 图 书 论坛 
(http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖 
子 附件 的 “chapter13/code/” 目 录 下 的 dftcorr.m 文 件 中 。 程 序 在 原 图 像 I 中 
标记 出 了 匹配 位 置 。 


function Icorr = dftcorr(], w) 





% function Icorr = dftcorr(I，w) 


% 在 频 域 下 计算 图 像 1 与 子 模式 w 的 相关 啊 应 ， 并 提示 最 大 啊 应 位 


% 

% Input: 1- 原始 图 像 
% w- 子 图 像 

% 


% Output: Icorr - 啊 应 图 像 

[= double(]1); 

[m n| = sizel(]1); 

[mo n0] = size(w); 

F = fft2(D); 

Ww = conj(fft2(w, m, n)); %w 频谱 的 共 罗 

Ffilt = w .* F; % 频 域 滤波 结 

Icorr = real(ifft2(Ffilt)); % 反 变换 回 空域 

% 找到 最 啊 相 应 位 置 

[iMaxRes, jMaxRes] = find(Icorr == max( Icorr(:) ) ); 

figure, imshow(L 口 ); 

hold on 

forii= 1:length(iMaxRes) 
plot(J MaxRes(ii), iMaxRes(ii), '‘w*'); 
plot([jMaxRes(ii), ]jMaxRes(ii)+n0-1], [iMaxRes(ii), IMaxRes(ii)], 'w-' 


plot([jMaxRes(ii)+n0-1, jMaxRes(ii)+n0-1], [iMaxRes(ii), 
iMaxRes(ii)+m0-1], "w-' ); 

plot([jMaxRes(ii), ]jMaxRes(ii)+n0-1], [iMaxRes(ii)+m0-1, 
iMaxRes(ii)+m0-1], 'w-' ); 

plot([jMaxRes(ii), ]j MaxRes(ii)], [iMaxRes(ii), iMaxRes(ii)+m0-1], 'w- 
'); 


end 

对 于 例 13.4 中 的 模板 匹配 问题 ， 和 imcorr 相 比 ，dftcorr 在 执行 效率 上 
的 优势 是 显而易见 的 。 这 是 因为 该 问题 中 模板 图 像 的 大 小 为 61x64， 虽 
然 比 原 图 像 小 得 多 ， 但 已 可 以 说 是 一 个 比较 大 的 模板 了 。 有 文献 
(Campbell 1969) 兽 指出 ， 如 果 w 中 的 非 零 元 素数 目 小 于 132〈 大 约 
13x13 见 方 ) ， 则 直接 在 空域 中 计算 相关 较为 划算 ， 人 否则 通过 上 述 方法 
变换 至 频 域 下 计算 更 为 合适 。 当 然 ， 这 个 数目 不 是 绝对 的 ， 它 还 与 { 的 
大 小 以 及 运算 机 器 本 喘 有 关 ， 恋 者 可 以 把 它 作为 参考 ， 来 决定 在 应 用 系 
统 中 实现 相关 的 具体 方式 。 


























在 对 图 像 识 别 有 一 个 整体 认识 之 后 ， 从 现在 开始 我 们 要 学 习 两 种 高 
实用 性 的 分 类 技术 ， 本 章 介 绍 人 工 神 经 网 络 ， 下 一 半 将 围绕 文 持 癌 量 机 
展开 讨论 ， 对 它们 的 理论 基础 将 给 出 必要 的 介绍 ， 重 点 放 在 两 者 在 应 用 
和 实现 层面 的 一 些 技巧 和 注意 事项 ， 学 习 的 目的 是 使 读者 在 学 习 之 后 立 
即 可 以 在 工程 实践 中 获 益 。 

本 章 的 知识 和 技术 热点 

e ANN 的 基本 结构 

e 反问 传播 算法 

e ANN 的 训练 和 使 用 技巧 

本 章 的 典型 案例 分 析 

e 基于 ANN 的 字母 模式 识别 系统 














人 工 神经 网 络 (Artificial Neural Networks, ANN) 也 简称 为 神经 网 
络 (NN) ， 是 对 人 脑 或 生物 神经 网 络 (Natural Neural Network) 若干 基 
本 特性 的 抽象 和 模拟 。 它 为 从 样本 中 学 习 值 为 实数 、 离 散 值 或 同 量 的 孙 
数 提 供 了 一 种 健壮 性 很 强 的 解决 方案 ， 己 经 在 诸如 汽车 自动 敬 驶 、 光 学 
字符 识别 OCR) 和 人 上 脸 识别 等 很 多 实际 问题 中 取得 了 惊人 的 成 功 。 

对 于 一 个 分 类 问题 ， 我 们 的 目标 就 是 学 习 决 集 函 数 h(x)， 该 冰 数 的 
输出 为 离散 值 ( 类 标签 ) 或 者 癌 量 〈 经 过 编码 的 类 标签 ) ，ANN 自 然 能 
够 胜任 这 一 任务 此外， 由 于 可 和 学习 实 值 函 数 ，ANN 也 是 函数 拟 合 的 利 
器 。 本 书 中 对 于 ANN 的 介绍 只 限于 分 类 问题 ， 将 涉及 输出 为 离散 值 和 回 
量 的 情况 。 





14.1.1 仿生 学 动机 


1. 生物 神经 网 络 

众所周知 ， 生 物 大 脑 由 大 量 的 神经 细胞 (神经 元 ，neuron) 组 成 ， 
这 些 神经 元 相互 连接 成 十 分 复杂 的 网 络 。 每 个 神经 元 由 3 部 分 组 成 : 树 
突 、 细 胞 体 和 轴 突 ， 如 图 14.1 所 示 。 树 突 是 树 状 的 神经 纤维 接受 网 络 ， 
它 将 输入 的 电信 号 传递 给 细胞 体 ， 轴 突 是 单 根 长 纤维 ， 它 把 细胞 体 的 输 
出 信号 导向 其 他 神经 元 。 大 量 这 样 的 神经 元 广泛 地 连接 从 而 形成 了 网 
络 。 神 经 元 的 数目 、 排 列 拓扑 结构 以 及 突 触 的 连接 强度 决定 了 生物 神经 
网 络 的 功能 

神经 元 之 间 利 用 电化 学 过 程 传递 信号 。 一 个 神经 元 的 输入 信和 号 来 自 
另 一 些 神经 元 的 输出 ， 这 些 神经 元 的 轴 突 末梢 与 该 神经 元 树 突 相遇 形成 
突 触 。 大 脑 神经 元 有 两 种 状态 : 兴 香 和 抑制 。 细 胞 体 对 这 些 输 入 信号 进 

行 整合 并 进行 交 什 处理。 如果 整合 后 的 刺激 值 超 过 某 一 国 值 神 经 元 被 激 

活 而 进入 兴奋 状态 ， 此 时 就 会 有 一 个 电信 号 通过 轴 突 传递 给 其 他 神经 
元 ; 否则 神经 元 就 处 于 抑制 状态 。 











A 图 14.1 生物 神经 元 及 其 连接 方式 


生物 大 脑 具 有 超 强 的 学 习 能 力 。 相 关 研 究 表 明 ， 如 果 一 个 神经 元 在 
一 段 时 间 内 频繁 受到 激励 ， 则 它 与 连接 至 输入 的 神经 元 之 间 的 连接 强度 
就 会 相应 地 改变 ， 从 而 使 得 该 神经 元 细胞 再 次 受到 激励 时 更 易 兴 奋 ; 相 
反 ， 一 个 某 段 时 间 内 不 被 激励 的 神经 元 的 连接 有 效 性 会 慢 慢 地 衰减 。 这 
一 现象 说 明神 经 元 之 间 的 连接 具有 人 杂种 可 塑性 (可 训练 性 〉。 

一 个 训练 生物 神经 网 络 的 例子 如 人 类 学 习 下 棋 。 起 初 在 没有 接受 过 
任何 下 棋 训 练 时 ， 可 以 理解 为 大 脑 神经 元 网 络 处 于 一 个 随机 状态 ， 对 于 
菏 一 个 棋局 〈 输 入 ) ， 产 生 一 个 随机 的 应 对 策略 (网 络 的 实际 输出 〉; 
接 下 来 ， 这 一 应 对 策略 会 从 指导 教师 〈 教 下 棋 的 人 或 者 是 一 本 棋 谐 ) 那 
里 得 到 相应 的 反馈 (这 一 步 下 得 好 还 是 不 好 ， 或 者 正确 的 走 法 是 什么 ， 














相当 于 训练 样本 的 目标 输出 ) ， 并 以 此 反馈 作为 调整 网 络 神经 元 之 间 连 
接 《〈 这 些 连接 具有 可 训练 性 ) 的 依据 ;， 随 着 这 种 训练 和 调整 过 程 的 进 
行 ， 网 络 对 于 新 的 棋局 〈 输 入 ) 的 决策 越 来 越 接 近 于 最 优 决策 (实际 输 
出 更 加 接近 于 目标 输出 ) ， 网 络 处 于 一 种 善于 对 某 个 棋局 做 出 正确 反映 
的 状态 。 这 就 是 我 们 在 学 习 下 棋 时 从 一 个 初学 者 到 高 手 的 过 程 。 

2. 人工 神经 网 络 

人 工 神 经 网 络 ANN， 以 下 简称 网 络 或 神经 网 络 ) 的 研究 在 相当 程 
度 上 受到 了 生物 大 脑 的 仿生 学 启发 ， 它 由 一 系列 简单 的 人 工 神 经 元 相互 
密集 连接 构成 ， 其 中 每 个 神经 元 同样 由 3 部 分 组 成 : 输入 、 人 工 神经 细 
胞 体 和 输出 。 每 个 神经 元 具有 一 定数 量 的 实数 值 输入 ， 并 产生 一 个 的 实 
数值 的 输出 ， 如 图 14.2 所 示 。 














A 图 14.2 人 工 神 经 元 示意 图 


一 个 人 工 神 经 元 的 输入 信号 来 自 男 一 些 神经 元 的 输出 ， 其 输出 又 可 
以 作为 另 一 些 神经 元 的 输入 。 一 种 称 为 感知 器 《〈 见 14.2.1 小 节 ) 的 人 工 
神经 元 同样 具有 两 种 状态 : 1 和 -1。 人 工 神 经 细胞 对 这 些 输入 信和 号 进行 
整合 并 进行 浆 值 处 理 。 如 果 整 合 后 的 刺激 值 超过 东 一 国 值 神经 元 被 激活 
而 进入 1 状态 ;人 否则 神经 元 就 处 于 -1 状态 。 

正如 大 脑 可 以 通过 不 断 调 节 神 经 元 之 间 的 连接 而 达到 不 断 学 习 进步 
的 目的 ，ANN 也 可 以 通过 不 断 调整 输入 连接 上 的 权 值 以 使 得 网 络 更 加 适 





应 训练 集合 。 

在 ANN 的 训练 过 程 中 ， 训 练 样本 特征 同 量 是 ANN 的 输入 ， 训 练 样 
本 的 目标 输出 《在 分 类 问题 中 为 类 别 信息 ) 是 网 络 的 输出 。 初 始 情况 
下 ， 网 络 权 值 被 初始 化 为 一 种 随机 状态 ， 当 把 某 个 训练 样本 输入 网 络 
时 ， 由 此 产生 的 网 络 输出 与 训练 样本 目标 输出 之 间 的 差异 称 为 训练 误 
差 ， 接 下 来 ，ANN 将 根据 某 种 机 制 (参见 14.2.1 小 节 ) 调节 权 值 w， 使 
得 训练 误差 逐步 减 小 ， 随 着 这 种 训练 和 调整 过 程 的 进行 ， 网 络 对 于 训练 
样本 的 实际 输出 将 越 来 越 接近 于 目标 输出 。 

人 工 神经 网 络 和 生物 神经 网 络 机 能 的 类 比如 表 14.1 所 示 。 


表 14.1 人 工 神经 网 络 与 生物 神经 网 络 机 能 类 比 




















人 工 神经 网 络 CANN ) 生物 神经 网 络 
输入 树 突 
输出 轴 突 
人 工 神经 细胞 生物 神经 细胞 体 
人 工 神 经 元 的 1、- 1 两 种 状态 生物 神经 元 的 兴奋 和 抑制 状态 
ANN 的 训练 大 脑 的 学 习 
网 络 权 值 的 调整 生物 神经 细胞 之 间 连 接 的 调节 
ANN 对 于 特定 输入 样本 的 输出 大 脑 对 于 特定 输入 情况 的 决策 





在 准备 稍 显 枯燥 的 ANN 理 论 学 习 之 前 ， 先 来 看 一 个 将 ANN 应 用 于 
学 习 汽 车 自动 驾驶 的 典型 案例 ， 了 解 ANN 能 够 解决 什么 样 的 问题 并 从 中 
获得 足够 的 对 于 ANN 的 感性 认识 。 

[ 例 14.1] ALVINN 汽 车 自动 驾驶 系统 

著名 的 自动 驾驶 系统 ALVINN 是 ANN 一 个 典型 的 应 用 。 该 系统 使 用 
一 个 经 过 训练 的 ANN 以 正常 速度 在 高 速 公 路 上 区 驶 汽车 。 如 图 
14.3 (b) 所 示 ，ALVINN 具 有 一 个 典型 的 3 层 结构 ， 网 络 的 输入 层 共 有 











30 x 32 个 单元 ， 对 应 于 一 个 30x32 像 素 点 阵 ， 是 由 一 个 安装 在 车 辆 上 的 
前 向 摄像 机 获取 的 图 像 经 过 重 采 样 得 到 的 。 输 出 层 共 有 30 个 单元 ， 输 出 
情况 指出 了 车 辆 行进 的 方向 。 

在 训练 阶段 ，ANVINN 以 人 类 驾驶 时 摄像 机 所 捕获 的 前 方 交 通 状况 
作为 输入 ， 以 人 类 通过 操作 方向 盘 给 出 的 前 进 方向 作为 目标 输出 ， 整 个 
训练 过 程 大 约 5min; 在 测试 阶段 ，ALVINN 用 学 习 到 的 网 络 在 高 速 公路 
上 以 70 贡 里 的 时 速成 功 地 获 驶 了 90 瑞 里 。 

摄像 头 捕获 图 像 的 30x32 的 重 采 样 图 像 被 作为 网 络 的 输入 ， 对 应 于 
960 个 输入 层 单元 ， 这 些 输入 又 连接 至 4 个 隐藏 单元 ， 再 连接 到 30 个 输出 
单元 ， 输 出 为 一 个 30 维 向 量 ， 相 当 于 把 整个 方向 盘 的 控制 范围 分 成 30 
份 ， 每 个 输出 单元 对 应 一 个 特定 的 驾驶 方 同 ， 决 策 结果 为 输出 值 最 大 的 
单元 对 应 的 行驶 方向 

在 ALVINN 中 所 有 单元 分 层 互 连 形成 了 一 个 有 回 无 环 网 ， 相 邻 层 之 
间 是 全 连接 的 ， 这 是 很 多 ANN 的 典型 结构 。ANN 结 构 还 可 有 多 种 其 他 
类 型 ， 本 章 只 集中 介绍 具有 类 似 于 ALVINN 的 网 络 结构 并 以 反 向 传播 
(BP, Back Propogation) 算法 为 基础 的 最 常见 和 实用 的 ANN。 









输入 层 
30x32 的 摄像 
头 捕获 图 像 的 
重 采 样 数据 





| py 
(a) 车 内 的 摄像 头 和 前 方 的 实际 情况 


A 图 14.3 学 习 汽 车 自动 驾驶 的 ALVINN 系 统 


(b) ALVINN 的 网 络 结构 











在 进入 用 于 ANN 训 练 的 反 辐 传播 算法 的 学 习 之 前 ， 首 先 了 解 用 于 训 
练 线性 单元 的 梯度 下 降 法 是 非常 有 益 的 ， 它 构成 了 反问 传播 算法 的 基 
础 。 不 同 的 是 梯度 下 降 法 只 是 训练 一 个 线性 蛙 元 ， 而 有 反问 传播 算法 能 够 
训练 多 个 单元 的 互连网 络 。 因 此 我 们 将 从 感知 器 开始 ， 进 而 介绍 训练 线 
性 单元 的 梯度 下 降 算 法 开始 ， 最 终 推 广 到 用 于 神经 网 络 训练 的 反 啊 传播 





算法 。 





1. 感知 器 〈perceptron ) 
感知 器 是 一 种 只 具有 两 种 输出 的 简单 的 人 工 神经 元 ， 一 个 具有 n 个 








实数 输入 xx 和 的 感知 器 如 图 14.4 所 示 。 每 个 输入 xi 对 应 一 个 权 值 
Wi， 此 外 还 有 一 个 偏 置 (BIAS) 项 Wo， 首 先 需 计算 这 n 个 输入 根据 其 
权 值 形成 的 一 个 线性 组 合 再 加 上 偏 置 项 Wo， 即 

net = > Wi Xi 十 0 (14-1) 


i=] 
不 妨 令 xo=1， 从 而 式 〈14-1) 可 表示 为 


nn 
net = Wi Xi = W-X (14-2) 
i=0 


其 中 输入 向 量 X*=(1,xj,x,.….,x,)， 权 向 量 W=(Wo,Wj,W,...,W)。 
感知 器 的 输出 为 式 (14-2) 经 过 阔 值 化 处 理 的 结果 : 


1, wixi>0 
= 之 (14-3) 
ba 其 他 


感知 器 的 工作 方式 与 生物 神经 单元 占 为 相似 。 注 意 到 在 图 14.4 中 
每 个 输入 到 > 求 和 单元 的 连接 上 的 权 值 Wi 表 示 在 对 输入 的 线性 组 合 中 各 
个 x 的 贡献 大 小 ，z 单 元 的 加 权 求 和 处 理 即 为 对 输入 的 整合 过 程 。 而 感 
知 右 的 1 和 -1 两 种 输出 对 应 于 生物 神经 元 的 兴奋 和 抑制 两 种 状态 。 





A 图 14.4 感知 器 单元 


由 式 《14-3) 的 形式 可 知 ， 感 知 器 对 应 于 一 个 n 维 空间 中 的 超 平面 
wx =0， 它 能 够 分 类 两 类 样本 。 对 于 其 一 侧 的 输入 样本 输出 1， 对 于 另 
一 侧 的 样本 输出 -1。 训 练 过 程 就 是 调整 权 值 Wi,W,,.….,W，， 使 得 感知 器 
对 于 2 类 样本 分 别 输出 +1 和 -1。 

2. 线性 单元 (linear unit) 

只 有 1 和 -1 两 种 输出 限制 了 感知 器 的 处 理 和 分 类 能 力 ， 一 种 简单 的 
推广 是 线性 单元 ， 即 不 带 阔 值 的 感知 器 。 一 个 具有 n 个 输入 xjxo， 汉 的 
线性 单元 如 图 14.5 所 示 ， 其 输出 为 其 n 个 输入 根据 其 权 值 形成 的 一 个 线 
性 组 合 再 加 上 偏 置 项 Wo， 即 








O(X) = DY_ wi :xi+wo (14-4) 


i=] 


令 xo=1， 从 而 式 (14-1) 可 表示 为 


O(X)= > Wire = We (14-5) 


i=0 


式 中 : 输入 向 量 X* =(1,X1,X2,...,Xn); 权 向 量 w =(Wo,W1,W,» 人 WW)。 





A 图 14.5 线性 单元 示意 图 


训练 线性 单元 的 核心 任务 就 是 调整 权 值 Wj,W .Wu， 使 得 线性 单 
元 对 于 训练 样本 的 实际 输出 与 训练 样本 的 目标 输出 尽 可 能 地 接近 。 

3. 误差 准则 

为 了 推导 线性 单元 的 权 值 学 习 法 则 ， 首 先 必 须 定 义 一 个 度量 标准 来 
衡量 在 当前 权 向 量 由 下 ANN 相 对 于 训练 样 例 的 训练 误差 〈training 
error) 。 一 个 常见 的 度量 标准 为 平方 误差 准则 。 








E(wW) -= pg (14-6) 
~ deD 

式 中 : D 是 训练 样本 集合 ; ty 是 训练 样本 d 的 目标 输出 (训练 样本 d 
的 类 别 信息 ) ; oa 是 线性 单元 对 于 训练 样本 d 的 实际 输出 ， 即 O (xg) ; 
E(w) 是 目标 输出 u 和 实际 输出 ou 的 差 的 平方 在 所 有 训练 样本 上 求 和 的 
1/2 倍 ， 这 里 常数 1/2 主 要 是 为 了 最 终 的 推导 结果 在 形式 上 的 简 活 〈 在 推 
导 过 程 中 与 其 后 平方 项 求 导 产生 的 因子 2 抵消 ) 。 观 察 式 (14-3) ， 对 
于 特定 的 问题 ， 训 练 集合 就 固定 了 下 来 ， 因 此 * 是 定 值 ， 目 标 输出 ty 也 
为 定 值 ( 训 练 样本 的 类 别 信息 是 已 知 的 ) ， 而 oj 只 依赖 于 权 向 量 W， 可 
以 把 E 写 成 是 权 向 量 w 的 函数 。 





图 14.6 给 出 了 在 解 空间 中 搜索 的 可 视 化 解释 。 由 于 无 法 绘制 出 超 
过 三 维 的 空间 ， 这 里 设 w=(Wo,W1)， 即 我 们 要 在 二 维 解 空间 Wo-Wi 中 搜 
索 最 小 化 式 (14-3) 的 权 向 量 WW， 第 三 维 ( 纵 轴 ) 表示 误差 ECW)， 图 中 
给 出 了 在 整个 二 维 搜索 空间 Wo-Wj 上 的 误差 曲面 2(W) 。 由 于 ECW) 是 关 
于 避 的 二 次 函数 ， 这 个 误差 曲面 必然 是 具有 单一 的 全 局 最 小 值 的 抛物 

面 。 当 区 是 更 高 维 的 权 向 量 时 ， 只 不 过 相当 于 在 一 个 更 高 维 的 解 空间 中 
搜索 最 小 化 ECW) 的 解 节 ， 误 差 曲面 妃 (w) 也 就 成 了 一 个 超 抛物 面 。 
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为 了 确定 一 个 使 E 最 小 化 的 权 向 量 ， 我 们 从 任意 的 初始 权 向 量 W" 开 
台 ， 然 后 以 很 小 的 步 长 反复 修改 这 个 权 向 量 ， 而 每 一 步 的 修改 都 能 够 使 
误差 FE 减 小 。 继 续 这 个 过 程 直到 找到 全 局 的 最 小 值 点 Ww 。 

很 自然 我 们 希望 上 述 过 程 越 快 越 好 ， 因 此 在 每 一 步 都 要 使 EE 减 小 尽 





可 能 快 ， 这 样 的 寻 优 过 程 同样 可 在 图 14.6 中 找到 可 视 化 的 解释 。 设 想 你 
从 解 空间 中 的 任意 初始 点 no 开始 出 发 ， 目 的 地 是 误差 曲面 的 最 低 点 ， 由 
于 能 见 度 有 限 等 原因 ， 某 一 时 刻 你 只 能 看 到 距离 自己 很 近 的 周边 区 域 ， 
因此 每 次 只 试探 性 地 路 出 一 小 步 ， 为 了 以 最 快速 度 到 达 谷 底 ， 一 个 合理 
的 选择 是 找到 目前 最 陡峭 的 下 降 方向 ， 朝 该 方 回路 出 这 一 步 ， 在 新 的 位 
置 上 你 将 获得 新 的 视野 ， 也 将 找到 新 的 最 陡 方向 ， 不 断 重 复 这 一 过 程 直 
到 到 达 最 低 目 标点 。 

4. 梯度 下 降 法 〈gradient descent) 的 推导 

怎样 才能 计算 出 沿 误差 曲面 最 快 的 下 降 方向 呢 ? 我 们 在 高 等 数学 中 
学 习 过 梯度 〈gradient) 的 概念 ， 而 梯度 是 方 回 导数 最 大 的 方向 ， 因 此 
可 通过 计算 E 相 对 于 向 量 w 的 每 个 分 量 的 偏 导数 来 得 到 方向 导数 最 大 的 
方向 一 梯度， 记 作 VE(Ww) 。 




















AE 6 PE 
oF oF ee. (14-7) 


OWwWo Ow OW 


VE(W) =[ 

















需要 注意 的 是 梯度 YE(W) 本 身 是 一 个 表示 方向 导数 最 大 方向 的 向 
量 ， 因 此 它 对 应 于 E 最 快 的 上 升 方向 ， 而 我 们 要 寻找 的 沿 误差 曲面 最 快 
的 下 降 方向 自然 就 是 负 梯度 -YE(w)。 所 以 梯度 下 降 的 训练 法 则 应 为 





W < w+Aw (14-8) 
式 中 : 
Aw = -nVE(w) (14-9) 


这 里 n 是 一 个 称 为 学 习 率 的 正 的 常数 ， 它 决定 了 梯度 下 降 搜 索 中 的 
步 长 。w 代 表 解 空间 中 的 当前 搜索 点 ，AWw 代 表 向 当前 最 快 下 降 方 向 的 
一 小 段位 移 ，w 车 Ww+Aw 则 表示 在 搜索 空间 中 从 当前 点 沿 最 快 下 降 方 











问 移 动 一 小 段 距 离 并 更 新 当前 位 置 至 此 移动 位 置 。 
训练 法 则 式 〈14-8) 也 可 以 写成 它 的 分 量 形式 。 





Wi €— Wi + AW, (14-10) 
式 中 ;: 
i OE 
Aw = -1 : (14-11) 
OW’; 





这 样 很 明显 ， 下 降 最 快 的 方向 可 以 按照 比例 9E/0Wi 改 变 w 中 的 每 一 
个 Wi 来 实现 。 剩 下 问题 的 就 是 计算 6E/GWi 了 。 


AE 
> 2 (ta — Dm -(ta —04) 


OW; OwW; 2 deD ~“ deD Ow 
一 -= 2(ta —04)— (ta —o04) 
2 deD 1 (14-12) 
= -on d—W:Xa) 
deD 
= (fa 一 0d) 儿 一 Xid) 
deD 


式 中 :xi 表示 训练 样本 d 的 一 个 输入 分 量 x 。 在 式 〈14-12) 的 推导 
过 程 中 用 到 的 是 高 等 数学 中 复合 函数 求 导 的 知识 。 在 误差 函数 £0 的 
表达 式 式 (14-7) 中 ， 对 给 定 的 一 组 样本 目标 输出 tj 为 常数 ， 因 此 有 











i = 0 
OW'i 


而 实际 输出 og 是 Wi 的 函数 ， 对 于 线性 单元 而 言 ， 有 


并 
Ood 二 pp WiXid 
i=0 


在 计算 ou 对 Wi 的 偏 导 时 ，w 的 其 余 分 量 Wi(j=0,1 2,.… n, jzD 均 可 视 
为 常数 ， 对 于 给 定 样本 ，xi 亦 为 常数 ， 故 





至 此 我 们 得 到 了 一 个 能 够 用 线性 单元 的 输入 xig， 输 出 oq 以 及 训练 样 
本 的 目标 值 t4 表 示 的 90E/0OWi， 代 入 式 “14-9) 得 到 了 梯度 下 降 的 权 值 更 
新 法 则 。 





Aw; = 1 >》 (ts — O04 )Xid (14-13) 
deD 
综 上 所 述 ， 训 练 线性 单元 的 梯度 下 降 算法 如 下 。 随 机 选取 一 个 初始 
权 回 量 ， 计 算 所 有 训练 样本 经 过 线性 单元 的 输出 ， 然 后 根据 式 〈14- 
13) 计算 每 个 权 值 的 AW;， 通 过 式 〈14-10) 来 更 新 每 个 权 值 ， 然 后 重复 
这 个 过 程 。 该 算法 的 伪 代 码 描述 如 算法 14.1 所 示 。 
算法 14.1 训练 线性 单元 的 梯度 下 降 算法 
GradDesc(trainset, 7) 
{//trainset 中 每 一 个 训练 样本 以 序 偶 <X,t> 的 形式 给 出 ， 其 中 xX 是 样 
本 特征 癌 
// 量 ， 是 系统 的 输入 ; t 是 目标 输出 值 ， 通 常 是 类 标签 的 菜 种 编码 ， 
nN 是 学 习 率 。 
将 每 个 网 络 权 值 Wi 初始 化 为 茶 个 小 的 随机 值 ; 
遇 到 终止 条 件 之 前 ， 重 复 以 下 操作 : 
初始 化 每 个 AWi 为 0; 





对 于 训练 集合 trainset 中 的 每 个 <X,t>， 做 : 
把 样本 特征 向 量 * 作 为 线性 单元 的 输入 ， 计 算 输出 o; 
对 于 线性 单元 的 每 个 权 w，; 做 AW'; ~ + -AWint ox( i; 
对 于 线性 单元 的 每 个 权 Wi， 做 Wi ~ Wi+AW'; 

} 

由 于 二 次 误差 曲面 仪 包含 一 个 全 局 最 小 值 ， 算 法 14.1 最 终 会 收敛 到 
具有 最 小 误差 的 权 同 量 ， 但 必须 使 用 一 个 足够 小 的 学 习 率 n。 如 果 n 太 
大 ， 梯 度 下 降 搜 索 就 有 越过 误差 曲面 最 小 值 而 不 是 停留 在 那 一 点 的 危 
险 ， 如 网 14.7 所 示 。 一 种 好 的 改进 策略 是 随 着 梯度 下 降 步 数 的 增加 而 逐 
渐 减 小 n 的 值 。 











no 


(a) 77 很 小 时 ， 可 以 保证 收敛 (b》 较 大 的 77， 训练 将 震荡 收敛 (c) 7 过 大 ， 系 统 无 法 收敛 
A 图 14.7 n 对 于 梯度 下 降 搜 索 收 合 的 影响 (n0 为 搜索 起 始点 ) 


5. 增 量 梯 度 下 降 (incremental gradient descent) 

很 多 人 工 乔 能 和 模式 识别 的 问题 最 终 都 可 转化 为 一 个 求 最 优 的 问 
题 ， 而 梯度 下 降 法 作为 一 种 重要 寻 优 手段 ， 适 用 于 满足 以 下 条 件 的 任何 
情况 。 

e 搜索 的 假设 空间 包含 连续 参数 化 的 假设 〈 线 性 单元 梯度 下 降 搜 索 
中 的 解 w 是 连续 变化 的 ) 。 

。 误 差 〈E(w) ) 对 于 这 些 假设 参数 (w) 可 微 。 








应 用 梯度 下 降 的 主要 实践 问题 如 下 。 

e 有 时 收 敛 过 程 可 能 非常 慢 ( 雷 要 上 干 次 的 迭代 )。 

e 如 采 在 误差 曲面 上 存在 多 个 局 部 极 小 值 ， 算 法 不 保证 能 够 找到 全 
局 最 小 值 〈 与 初始 搜索 位 置 有 关 ) 。 

为 缓解 这 些 问 题 ， 人 们 提出 了 增 量 梯度 下 降 法 ， 又 名 随机 梯度 下 





标准 梯度 下 降 在 对 训练 集 D 中 的 所 有 样本 的 平方 误差 求 和 后 计算 权 
值 更 新 ， 式 〈14-13) 中 对 所 有 D 中 样本 的 2 求 和 说 明了 这 一 点 ， 而 增 量 
梯度 下 降 法 根据 每 个 单独 样本 的 误差 增 量 计算 权 值 更 新 ， 得 到 近似 的 梯 
度 下 降 搜索 。 修 改 后 的 训练 法 则 与 式 〈14-13) 相似 ， 只 是 在 迁 代 计算 
每 个 训练 样本 时 根据 下 面 的 公式 来 更 新 权 值 。 











Aw =71(t 一 0)Xi (14-14) 


增 量 梯度 下 降 法 的 伪 代 码 描述 如 算法 14.2 所 示 。 
算法 14.2 训练 线性 单元 的 增 量 梯度 下 降 算法 

IncGradDesc(trainset, T) 

{//trainset 中 每 一 个 训练 样本 以 序 偶 <x., 忆 的 形式 给 出 ， 其 中 x 是 样 
本 特征 问 

/ 量 ， 是 系统 的 输入 ; t 是 目标 输出 值 ， 通 常 是 类 标签 的 某 种 编码 ， 
nN 是 学 习 率 。 

将 每 个 网 络 权 值 Wi 初 始 化 为 某 个 小 的 随机 值 ; 

过 到 终止 条 件 之 前 ， 重 复 以 下 操作 : 

初始 化 每 个 人 Wi 为 0; 

对 于 训练 样本 trainset 中 的 每 个 < 

,人 >， 做 :x 把 样本 特征 向 量 * 作为 线性 单元 的 输入 ， 计 算 输出 o; 

对 于 线性 单元 的 每 个 权 Wi， 做 Wi Wi+n(t-o) Xi; 


} 
增 量 梯度 下 降 可 以 被 看 作 是 为 每 个 单独 的 训练 样本 d 定 义 不 同 的 误 
差 函 数 E4(W) 。 





| 


Ea(W) =T (1 -00) (14-15) 

在 每 次 迭代 中 按照 关于 £4(W) 的 梯度 来 改变 权 值 。 在 迭代 完 所 有 
训练 样本 时 1 轮 时 ， 这 些 权 值 更 新 的 序列 给 出 了 对 原来 误差 函数 EC) 的 
标准 梯度 下 降 的 一 个 合理 近似 。 只 要 n 足 够 小 ， 增 量 梯度 下 降 可 以 以 任 
意 程度 接近 标准 梯度 下 降 。 

提示 

标准 梯度 下 降 在 权 值 更 新 前 对 所 有 样本 汇总 误差 ， 而 增 量 梯度 下 降 
的 权 值 是 通过 考察 每 个 训练 样本 来 更 新 的 ， 如 果 E(w) 存在 多 个 局 部 极 
小 值 ， 增 量 梯度 下 降 有 时 可 避免 陷入 这 些 局 部 极 小 值 ， 因 为 它 使 用 
E4(W) 而 不 是 E(W) 来 引导 搜索 。 

[ 例 14.2] 寻 优 方法 比较 。 

下 面 给 出 了 除 梯度 下 降 外 的 两 种 常用 优化 方法 ， 偏 导数 和 二 次 规 
划 。 思 考 为 什么 在 ANN 的 训练 过 程 中 能 否 选择 这 两 种 方法 。 

(1) 由 于 我 们 可 以 写 出 0E/0W 的 表达 式 ， 一 个 可 能 会 产生 的 疑问 
是 是 否 可 以 采用 偏 导数 为 0 的 方法 来 解决 误差 函数 2(W) 的 优化 问题 ， 
毕竟 这 是 高 等 数学 中 有 关 多 元 函数 极 值 和 最 值 的 一 种 经 典 方法 ， 可 能 
是 读者 们 面 对 优 化 问题 首先 能 够 想到 的 解决 方法 。 然 而 ， 这 里 我 们 要 面 
对 的 通常 是 含有 大 量 权 值 的 系统 ， 它 对 应 着 维 数 非常 高 的 空间 中 的 误差 
曲面 (每 个 权 值 1 维 ) ， 而 每 1 维 都 有 多 个 可 能 的 局 部 极 小 值 点 (对 该 维 
偏 导数 为 0) ， 这 样 总 的 候选 局 部 极 小 值 数目 就 是 各 个 维 上 候选 局 部 极 
小 值 的 个 数 的 乘积 ， 这 将 是 一 个 庞大 的 数目 。 









































也 就 是 说 如 果 通 过 这 种 方法 解决 误差 函数 的 优化 问题 ， 设 共有 n 个 
权 值 ， 那 么 首先 要 解 一 个 由 n 个 方程 9OE/0W;=0, (i=1, 2,.…., n) 组 成 的 联 立 
方程 组 ， 我 们 姑且 不 说 这 个 方程 组 的 可 解 性 如 何 ， 假 设 第 i 维 上 满足 6E/ 
0W=0 的 解 的 个 数 为 miGi=1,2,..…n)， 则 总 的 候选 局 部 极 小 值 个 数 将 是 于 
， 还 要 再 从 这 么 多 候选 中 找 出 一 个 全 局 的 极 小 值 仍 将 是 个 十 分 棘手 的 任 


务 。 


1i 





(2) 对 于 线性 单元 ， 学 习 权 问 量 的 义 一 种 可 行 的 方法 是 线性 规划 
(Linear programming) 。 线 性 规划 是 解 线性 不 等 式 方程 组 的 一 种 通用 
的 有 效 方法 。 注 意 在 线性 单元 训练 中 ， 每 一 个 训练 样本 对 应 一 个 形式 为 
W*>0 或 WX <0 的 不 等 式 ， 且 它们 的 解 就 是 我 们 期 望 的 权 向 量 。 遗 憾 的 
是 ， 这 种 方法 仅 当 训练 样本 线性 可 分 时 有 人 解 。 即 便 是 在 对 它 进行 改进 之 
后 也 不 能 扩展 到 训练 多 层 网 络 。 相 反 ， 正 如 14.2.2 小 节 将 要 讨论 的 ， 梯 
度 下 降 算法 可 以 被 简单 地 扩展 到 多 层 网 络 ， 用 于 反问 传播 算法 的 学 习 之 








利用 前 面 学 过 梯度 下 降 法 训练 线性 单元 ， 我 们 只 能 够 得 到 一 个 最 佳 
拟 合 训练 数据 的 线性 超 平 面 (w，b) ， 这 里 b=Wo。 然 而 线性 决策 面 的 
分 类 能 力 有 限 ， 难 以 胜任 很 多 复杂 的 分 类 任务 〈 如 汽车 目 动 驾 驶 、 光 学 
字符 识别 、 人 脸 识 别 等 ) 。 多 层 人 工 神 经 网 络 能 够 表示 种 类 繁多 的 非 线 
性 曲面 ， 得 到 高 度 非 线性 化 的 决策 区 域 ， 如 图 14.8 所 示 。 





A 图 14.8 一 个 4 关 问 题 的 高 度 非 线性 化 的 决策 区 域 


典型 的 ANN 神 经 元 如 图 14.9 所 示 。 输 入 信号 x* 经 过 一 个 累加 器 累加 
(整合 ) 后 的 信号 wx* 被 送 入 一 个 激活 函数 go， 从 而 得 到 该 神经 元 的 输 
出 o。 而 这 个 神经 元 的 输出 o 又 可 以 作为 下 一 个 或 多 个 神经 元 的 输入 。 


Xo=1 


XI 










o=Go(net) 


nn 
net = 区 WN 
i=0 


A 图 14.9 人 工 神经 网 络 单元 





大 脑 中 神经 细胞 和 其 他 神经 细胞 是 相互 连接 在 一 起 的 ， 人 工 神经 元 
也 可 以 按照 类 似 的 方式 连接 从 而 组 成 人 工 神 经 网 络 。 一 种 最 广泛 使 用 的 
连接 方式 就 是 如 图 14.10 所 示 的 分 层 前 馈 网 络 (feedforward network) ， 


每 一 层 神经 元 的 输出 都 前 馈 至 它们 的 下 一 层 〈 图 14.10 中 为 右 侧 的 一 
层 ) ， 直 至 获得 整个 网 络 的 输出 。 
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和 图 14.10 三 层 BP 神 经 网 络 的 结构 示意 





在 分 层 网 络 中 ， 一 般 至 少 有 3 个 层 ; 一 个 输入 层 、 一 个 输出 层 还 有 
一 个 或 多 个 隐藏 层 。 相 邻 层 之 间 的 单元 是 全 连接 的 ， 即 输入 层 中 的 每 个 
输入 都 连接 到 了 隐藏 层 的 每 一 个 神经 元 ， 而 隐藏 层 的 每 个 神经 元 的 输出 
都 连接 到 输出 层 的 每 一 个 神经 元 。 多 层 网 络 可 以 解决 单 层 网 络 所 无 法 解 
决 的 问题 ， 如 非 线性 分 类 、 精 度 极 高 的 图 数 逼 近 等 。 只 要 有 足够 多 的 神 
经 元 ， 这 些 都 可 以 实现 。 


14.2.3 sigmoid 单 元 
我 们 希望 得 到 形式 更 为 复杂 的 非 线性 诀 策 区 域 ， 但 多 个 线性 单元 的 











连接 仍 产生 线性 函数 ， 因 此 将 多 个 线性 单元 连接 成 网 络 的 方法 显然 是 不 
可 取 的 。 这 样 残 需要 输出 是 输入 的 非 线 性 函数 的 单元 。 同 时 从 仿生 学 的 
角度 来 考虑 ，ANN 的 神经 元 也 应 当 像 生物 神经 元 那样 存在 某 种 刺激 。 

于 是 我 们 采用 某 种 非 线 性 激励 函数 作用 于 单元 的 净 输 入 ， 然 后 以 非 
线性 激励 的 啊 应 《激励 函数 的 输出 ) 作为 神经 元 的 输出 。 此 外 ， 为 了 能 
够 在 网 络 训练 过 程 中 应 用 梯度 下 降 算 法 ， 要 求 输出 必须 是 输入 的 可 微 函 
数 。 满 足 这 些 条 件 的 一 个 理想 选择 是 如 网 14.11 所 示 的 sigmoid 单 元 ， 它 
以 著名 的 sigmoid 函 数 作为 激励 函数 。 






: 1 
0=Gl(netj) = 一 -一 
1+e 


A 图 14.11 神经 网 络 中 的 sigmoid 单 元 


我 们 仍旧 像 在 线性 单元 中 所 做 的 那样 ， 首 先 计 算 它 的 n 个 输入 的 线 
性 组 合并 且 加 上 一 个 偏 置 Wo， 而 后 将 sigmoid 函 数 作 用 于 这 个 结果 ， 最 
终 以 sigmoid 函 数 的 输出 作为 单元 输出 o， 从 而 实现 了 输入 到 输出 的 非 线 
性 映射 。 形 式 化 地 讲 





0 =0(W-) (14-16) 


式 中 : WW =(WoW Ws WH); 工 =(LXDX2 osXn。 
而 sigmoid 函 数 


(14-17) 





0o(y)= 
py 


sigmoid 函 数 的 定义 域 为 [-oo,+oo] ， 值 域 为 [0，1]， 是 一 个 单调 递增 
的 平滑 函数 。 函 数 波形 如 图 14.12 所 示 。 





A 图 14.12 sigmoid 函 数 曲 线 


由 于 sigmoid 函 数 将 非常 大 的 输入 值 苑 映射 到 一 个 小 范围 的 输 
出 ， 它 常 被 称 为 sigmoid 单 元 的 挤 压 函 数 。 该 函数 还 有 一 个 很 好 的 特 
tn 


0 oo0) (14-18) 


推导 过 程 如 下 。 


dc(7) 访 . ] ] 


d _, 
下) 一 一 二 —(e ) 
dy dy l+e- (lI+e*) dy 
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= ] e 


上 
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式 〈14-18) 无 疑 将 大 大 简化 梯度 下 降 算 法 中 的 导数 计算 。 








] 二 





将 多 个 sigmoid 单 元 互相 连接 形成 如 图 14.10 所 示 的 3 层 网 络 ， 反 回 传 
播 算法 可 用 来 学 习 这 个 网 络 的 权 值 。 它 仍 采 用 梯度 下 降 算法 ， 以 最 小 化 
网 络 实际 输出 与 目标 输出 之 间 的 平方 误差 为 目标 。 不 同 的 是 ， 这 里 的 输 
出 是 整个 网 络 的 输出 ， 而 不 再 是 单个 单元 的 输出 ， 所 以 有 必要 重新 定义 
误差 E， 以 便 对 网 络 输出 层 的 所 有 单元 误差 求 和 。 








E(W)== 5 (ta-owm) (14-19) 
和 二 deD keoutputs 

其 中 outputs 是 网 络 输出 层 单元 的 集合 ，tk4 和 ora 是 将 训练 样本 d 作 为 
网 络 输入 时 在 第 k 个 输出 层 单元 的 输出 值 ， 误 差 E 被 看 成 是 网 络 各 层 之 间 
所 有 连接 的 权 的 函数 ， 由 这 些 权 值 共 同 决定 。 

反 向 传播 算法 需要 在 一 个 巨大 的 解 空间 中 搜索 能 够 使 式 (14-19) 
最 小 化 的 六 ， 这 里 冯 表 示 网 络 各 层 之 间 所 有 连接 的 权 值 组 成 的 集合 ， 这 
个 空间 由 网 络 中 所 有 单元 的 所 有 可 能 权 值 来 定义 。 此 时 的 误差 曲面 不 再 
是 图 14.6 中 的 二 次 误差 曲面 ( 超 抛物 面 )， 它 更 加 复杂 并 且 可 能 有 多 个 
局 部 极 小 值 。sigmoid 单 元 的 可 微 性 使 得 我 们 仍然 可 以 借助 梯度 下 降 法 
来 优化 E0w)， 但 此 时 梯度 下 降 仅 能 保证 收敛 到 局 部 最 小 值 ， 而 未 必 是 























全 局 最 小 值 。 

14.2.1 小 节 中 给 出 了 训练 线性 单元 的 标准 梯度 下 降 和 增 量 梯度 下 降 
算法 的 推导 和 伪 代 码 摘 述 ， 下 面 将 针对 如 网 14.10 所 示 的 包含 2 层 sigmoid 
单元 且 层 与 层 单 元 之 间 全 连接 的 网 络 给 出 训练 的 增 量 梯度 下 降 算 法 推导 
以 及 其 伪 代 码 描述 。 

1. 反 辐 传播 算法 的 推导 

首先 引入 以 下 记号 。 

xi 一 一 单元 j 的 第 i 个 输入 

Wi 一 一 与 输入 xji 相 关联 的 权 值 

net=ZiWixi 一 一 单元 j 的 将 输出 《输入 的 加 权 和 ， 未 经 过 激励 函 
数 ) 

oj=aaet) 一 一 单元 j 的 实际 输出 

t 一 一 单元 j 的 目标 输出 

















co- 一 sigmoid 函 数 
outputs 一 一 输出 层 单元 的 集合 





增 量 梯度 下 降 法 的 主要 特点 是 对 于 每 个 训练 样本 d， 利 用 关于 这 个 
样本 的 误差 ed 的 梯度 来 修改 权 值 。 换 言 之 ， 对 于 每 个 训练 样本 d 每 个 权 
值 Wi 被 增加 AWii 


(14-20) 





其 中 ，eg 是 训练 样本 d 的 误差 ， 通 过 对 输出 层 所 有 单元 的 求 和 得 
到 。 


ER 2 
Ea(W== 2, (tt-or) (14-21) 


< keoutputs 


这 里 鼠 是 输出 层 单元 k 对 于 训练 样本 d 的 目标 输出 值 ，ok 是 以 训练 样 
本 d 作 为 输入 时 第 k 个 输出 层 单 元 的 实际 输出 。 
现在 摆 在 我 们 面前 的 问题 是 要 导出 一 个 eawoWii 的 表达 式 。 注 意 到 


权 值 Wi 仅 能 通过 net 影 响 网 络 的 其 他 部 分 ， 因 此 可 利用 复合 函数 的 求 导 
法 则 得 到 。 


OF _ OEa Onet ; 





OW Onert ; OW 


_ (14-22) 
_ oF, (> i WiiX ji oF 
Re 
Onet ; OW’ji Onet; 
Oka 


下 面 分 两 种 情况 导出 07e4ji 的 表达 式 。 
(1) 单元 j 是 一 个 输出 层 单元 





由 于 net 仅 能 通过 oj 影响 网 络 ， 所 以 可 再 次 利用 复合 函数 的 求 导 法 则 
得 。 


Onet ; 








Goj Onet; 


(14-23) 
考虑 式 (14-23) 的 第 1 项 。 





OF4 _ 0 1 2 
CO 1 CO 2 keoutputs 
和 





(tr —0£) =0 


注意 到 当 kzj 时 : 00; ， 因 此 





Sh, (14-24) 
Oo 





接 下 来 考虑 式 (14-23) 的 第 2 项 。 


由 于 0j=o(net))， 所 以 00jOnet 就 是 sigmoid 函 数 的 导数 ， 根 据 式 (14- 
18) ，sigmoid 溺 数 的 导数 为 o(net;)(1-o(net;))。 因 此 有 


Do ， Da(net ， 
Ea (14-25) 
Onet ; Onet ; 


将 式 (14-24) 和 (14-25) 代入 式 (14-23) ， 得 
OF 


= 一 (万 0 )o; (1 > ) 
onet i 


(14-26) 


将 式 (14-26) 代入 式 〈14-22) ， 再 将 式 《14-22) 代入 式 (14- 
20) 便 得 到 输出 单元 的 权 值 更 新 法 则 。 





| 呈 
oF, 
An 一 一 1 

= 


=7(t; —0;)o;(l—o))xi (14-27) 


Ai 二 17O ji (14-28) 


提示 
oF, 
式 (14-28) 中 的 6 与 Onet 相等 。 下 文中 将 使 用 6; 来 表示 任意 音 


85， 
元 的 ener 。 

(2) 单元 j 是 一 个 隐藏 层 单元 

对 于 隐藏 层 单元 的 情况 ，Wij 是 间接 地 影响 网 络 和 输出， 从 而 影响 训 
练 误 状 eu， 因 此 有 必要 定义 由 单元 j 的 输出 所 能 连接 到 的 所 有 单元 的 集合 
Downstream()。 因 为 net 只 能 通过 Downstream() 中 的 单元 影响 网 络 输出 
进而 影响 到 eu， 故 有 如 下 推导 。 























-i A a 
cnet 1 keDownstream( )) cnetx cnet / 


分 
~ Onetr 
一 O 





k mn | 
keDownstream( /) Cnet 了 


、 Onet: 090; 








= 
AD. mnef ， 
keDownstream!( /) CO J onet J 


00; 





= 


keDownstream( /) C i 


至 其 -Or wpoj(l—o;) 


ksDownstream( /) 


=—0;(l—0o;) Ok Wh 


keDownstream!( /) 


_ Ok, 


同样 令 ” ”Onet; ， 即 可 得 到 隐藏 层 单元 j 的 权 值 更 新 法 则 。 





Awy 一 NOjXj (14-29) 


2. 反问 传播 算法 的 训练 过 程 
首先 创建 1 个 含有 1 个 隐藏 层 的 网 络 ， 并 随机 地 为 这 些 神 经 细胞 的 权 











重 赋 一 个 很 小 的 实数 值 ， 如 -0.05 一 0.05 之 间 的 数 〈 有 具体 原因 参见 14.2.5 
小 节 ) 。 然 后 把 1 个 输入 样本 向 量 送 入 网 络 的 输入 端 〈 一 般 情 况 下 网 络 
输入 单元 的 数目 等 于 输入 样本 特征 同 量 的 维 数 ) ， 并 计算 网 络 输出 值 。 
求 得 这 一 输出 值 和 训练 样本 目标 输出 值 之 间 的 平方 误差 eu。 利用 这 一 误 
差 值 就 可 以 来 调整 来 输出 层 蛙 元 的 权 值 ， 使 得 当 同 样 的 输入 再 次 送 入 网 
络 时 ， 其 输出 能 向 正确 答案 接近 一 些 。 一 旦 输出 层 的 权 值 已 经 调整 完 
毕 ， 束 可 以 对 隐藏 层 做 同样 的 事情 。 上 述 过 程 要 对 训练 集中 的 所 有 不 同 
的 输入 样本 向 量 重复 进行 许多 次 (经 常 将 一 次 重复 称 为 一 个 时 代 一 一 
Epoch) ， 直 到 误差 值 降低 到 所 处 问题 可 以 接受 的 一 个 阐 值 之 内 。 这 时 
我 们 说 网 络 已 经 训练 好 了 。 

反 回 传播 算法 的 伪 代 人 码 摘 述 如 算法 14.3 所 示 。 

算法 14.3 包含 两 层 sigmoid 单 元 的 人 工 神经 网 络 的 反 回 传播 算法 

( 增 量 梯度 下 降 版 本 ) 

BackPropagation (trainset, n, ni, Nove Dhidden ) 

{//trainset 中 每 一 个 训练 样本 以 序 偶 <x ,t> 的 形式 给 出 ， 其 中 x 是 样 
本 特征 向 量 ， 是 系统 的 输入 ; 

/是 学 习 速率 〈 例 如 0.1 或 0.05) nj 是 网 络 输入 单元 的 数量 ， ni 是 
输出 层 单元 数量 ; 

/nniadew 是 隐藏 层 单元 数量 。xji 表 示 从 单元 i 到 单元 j 的 输入 ，Wi 表 示 
从 单元 i 到 单元 j 的 权 值 

创建 具有 个 nn 输入 ，nhiadaam 个 隐藏 层 单 元 ，nou 个 输出 层 单元 的 网 
络 ; 

将 所 有 的 网 络 权 值 初始 化 为 小 的 随机 值 《 如 -0.05 一 0.05 的 数 ) ; 

在 过 到 终止 条 件 之 前 ， 重 复 以 下 操作 : 

对 于 训练 样本 集合 trainset 中 的 每 个 <X,! >: 
/将 输入 沿 网 络 疝 前 传播 

















把 样本 x 输入 网 络 ， 并 计算 网 络 中 每 个 单元 u 的 输出 o; 
/使 误 兰 沿 网 络 反 回 传 播 
对 于 网 络 中 的 每 个 输出 单元 k， 计 算 它 的 误差 项 6; 


Ok €or(l—or)(tr -or); 





对 于 网 络 中 的 每 个 隐藏 单元 h， 计 算 它 的 误差 项 8h; 


O) 《一 on(l — O04) 和» Wi Or ; 


keoutputs 
更 新 每 个 网 络 权 值 Wi 
Wi € Wi + Aw;， 其 中 Awj = 10jXj; 
y 
14.2.5 训练 中 的 问题 


1. 收敛 性 和 局 部 极 小 值 

反 癌 传播 算 法 在 解 空间 中 寻找 能 够 最 小 化 训练 误差 的 网 络 权 值 。 对 
于 含有 非 线 性 Sigmoid 单 元 的 多 层 网 络 ， 误 差 曲 面 可 能 含有 多 个 不 同 的 
局 部 极 小 值 ， 梯 度 下 降 搜 索 有 可 能 陷入 到 这 些 局 部 极 小 值 中 。 因 此 ， 反 
向 传播 算法 仅 能 保证 收敛 到 误差 EE 的 某 个 局 部 极 小 值 ， 而 不 一 定 收敛 到 
全 局 最 小 误差 。 

通过 以 下 方法 可 以 有 效 降低 搜索 停留 在 局 部 极 小 值 的 概率 ， 使 反问 
传播 算法 尽 可 能 地 收敛 到 全 局 最 小 误差 。 

(1) 将 网 络 权 值 初始 化 为 接近 于 0 的 小 随机 值 

注意 到 sigmoid 函 数 在 其 输入 接近 0 时 接近 线性 〈 图 14.12) 。 如 果 把 
网 络 权 值 初始 化 为 接近 于 0 的 值 -0.05 一 0.05 之 间 的 数 ) ， 则 作为 








sigmoid 单 元 将 输入 的 net 也 必然 接近 于 0， 因 此 在 早期 的 梯度 下 降 步 又 
中 ， 网 络 表现 为 一 个 非常 平滑 的 函数 ， 近 似 为 输入 的 线性 函数 ， 基 本 不 
存在 局 部 极 值 的 问题 。 当 训练 进行 一 定时 间 后 ， 随 着 权 值 的 增长 ， 网 络 
演变 为 可 以 表示 高 度 非 线 性 的 函数 ， 从 而 开始 出 现 更 多 的 局 部 极 小 值 ， 
但 一 般 情况 下 此 时 搜索 已 经 足够 接近 全 局 最 小 值 ， 即 便 是 这 个 区 域 的 局 
部 最 小 值 也 是 可 以 接受 的 。 

(2) 增加 冲 量 项 

修改 算法 14.3 中 的 权 值 更 新 法 则 ， 使 本 次 的 权 值 的 更 新 部 分 地 依 
赖 于 上 一 次 达 代 时 的 更 新 ， 形 式 如 下 。 








Awi(n)=70jxi +aAwi(n—1) (14-30) 


其 中 ，AWii(n) 表 示 算 法 14.3 主 循环 中 的 第 n 次 达 代 时 的 权 值 更 新 ， 
而 0<a<1 是 一 个 称 为 冲 量 (momentum ) 的 常数 。 式 〈14-30) 右 侧 的 第 1 
项 是 算法 14.3 中 的 权 值 更 新 法 则 ， 而 第 2 项 是 新 增 的 冲 量 项 。 

冲 量 项 有 时 可 以 带动 梯度 下 降 搜索 冲 过 狭窄 的 局 部 极 小 值 而 不 是 陷 
入 其 中 。 设 想 一 个 球 沿 误差 曲面 向 下 深 ，a 的 作用 是 增加 冲 量 ， 使 这 个 
球 从 一 次 从 代 到 下 一 次 达 代 时 以 同样 的 方 同 深 动 。 冲 量 有 时 会 使 这 个 球 
深 过 误差 曲面 的 局 部 极 小 值 或 平坦 区 域 。 同 时 ， 冲 量 项 还 具有 在 梯度 不 
变 的 区 域 逐 渐 增 大 搜索 步 长 ， 从 而 可 以 加 快 收敛 的 作用 。 

(3) 使 用 随机 的 梯度 下 降 代 蔡 真 正 的 梯度 下 降 

算法 14.3 采用 的 梯度 下 降 的 随机 近似 对 于 每 个 训练 样 例 治 一 个 不 
同 的 误差 曲面 有 效 下 降 ， 它 依靠 这 些 梯度 的 平均 来 近似 对 于 整个 训练 集 
合 的 梯度 。 这 些 不 同 的 误差 曲面 通常 有 不 同 的 局 部 极 小 值 ， 这 使 得 下 降 
过 程 不 太 可 能 陷入 某 一 个 局 部 极 小 值 。 

(4) 在 搜索 过 程 中 使 用 逐渐 减 小 的 学 习 率 

较 大 的 学 习 率 mn 能够 在 训练 初期 加 快 收敛 进程 ， 然 而 对 于 复杂 的 误 








差 曲面 ， 较 大 的 mn 常常 使 搜索 有 越过 误差 曲面 最 小 值 而 不 是 停留 在 那 一 
点 的 危险 。 因 此， 可 以 在 随 着 训练 的 进行 ， 逐 步 减 0， 保 证 误差 的 充分 
减 小 〈 参 见 14.5.1 小 节 ) 。 

(5) 尝试 不 同 初始 位 置 的 多 次 搜索 

使 用 同样 的 训练 集训 练 多 个 网 络 ， 但 用 不 同 的 随机 值 初 始 化 每 个 网 
络 权 值 。 如 果 不 同 的 训练 产生 不 同 的 局 部 极 小 值 ， 那 么 选择 对 于 独立 的 
测试 集合 分 类 性 能 最 好 的 网 络 。 

2. 训练 的 终止 判 据 

算法 14.3 中 并 没有 明确 指出 算法 迭代 的 终止 条 件 ， 通 常 有 以 下 3 种 
常用 标准 可 以 作为 网 络 训练 结束 的 终止 判 据 。 

(1) 在 迭代 的 次 数 到 了 一 个 固定 值 时 停止 。 

(2) 在 训练 样 例 上 的 误差 降 到 某 个 阀 值 以 下 时 停止 。 

(3) 在 独立 的 测试 样本 集合 上 的 分 类 误差 符合 某 个 标准 时 。 

终止 判 据 的 选择 很 是 重要 ， 因 为 在 典型 的 应 用 中 ， 反 向 传播 算法 的 
权 值 更 新 迭代 会 被 重复 上 于 次 ， 一 味 地 增加 迭代 次 数 很 可 能 无 法 有 效 地 
降低 误差 ， 过 多 的 迭代 次 数 还 会 导致 对 训练 数据 的 过 度 拟 合 。 














Matlab 神 经 网 络 工具 箱 (Neural Network Toolbox〉 中 的 NNTool 函 
数 为 我 们 提供 了 一 种 集 神经 网 络 系统 设计 、 仿 真 和 分 析 功 能 于 一 体 的 可 
视 化 工具 。 读 者 完全 不 需要 编程 ， 且 设计 和 仿真 的 结果 完全 能 够 满足 一 
般 科 研 人 员 与 工程 设计 人 员 的 需求 。 





14.3.1 NNTool 的 主要 功能 及 应 


打开 Matlab R2011a 应 用 软件 后 ， 单 击 左下 和 角 的 “Start” 按 钮 ， 在 弹出 


的 菜单 中 选择 “Toolboxes”-,“Neural Network” 中 的 NNTool 图 标 〈 见 图 
14.13) ， 或 直接 在 命令 窗口 键入 nntool， 即 可 进入 如 图 14.14 所 示 的 神经 
网 络 设计 主 界面 。 


了 ATIAE 























Eile Edit Debsg DM Bioinforsatics b 
DD 区 |] 关 星相 ,我 Comwmnications » 
Shortcuts 因 How te 大 hd 
ee ‘by Carve Fitting » 
一 ee Data Acquisition » 
白 守则 巴 人 | 条 Database 
All 了 iles ~ 玫 Datsfond 
grayMat,asv 我 Distributed Ceapating pA 
< 我 Filter Desim x| NI 
et bmp | 只 Filtwr Design WDL Coder vd 
园 Thumbs .由 我 Financiadl bs 
二 Financial Derivatives » 
只 FixstInems » 
大 Fixed-Foint » 
确 Furry Lotic » 
验 wac » 
才 Genetic Aleorithn and Direct Seurch 
碑 Inage hcquisition » 
夫 Image Frecessing » 
机 | 委 Instranent Control ， 图 
Current Directory [W/W Link for Code Conposer Studiotts) | 
A Link for modelSine | 
Command History x 
Tw TI-TI27r 下 1 条 Msppine » 区 | 
3% 11-10-28 下 4 叭 Model Fredictive Control » 
maxyal = 24 | 啤 Nodel-Bared Calibration » 


winyal = 0 


span = 25/3 | 只 orc "SS sa 
mintal:anan:d 只 0ptinization 从 Denos 

二 HATLAB bo Partial Differential zqsation »@ Froduet rase lot) 

Nore. » 

往 Simulinx [本 

稀 Blocksuts » 

Shorteuts br 3) 

WT Desktop Tools * IttleTexture, bnp’); 
Yeb pt, 3) 


了 references £3) 


岛 

吉 

想 Fina Files Bi 
之 8:52 

登 





回转 20s 


A 图 14.13 以 荣 单 方式 打开 NNTool 






臣 InputData: 字 Networks 





前 Output Data: 








© Target Data: 








WV Input Delay States: 














党 Error Data: 








VW Layer Delay States: 




















多 Import... | C7 New... | 国 Open.… 





急 Export... 


其 Delete 





| D Help | @ Close 








A 图 14.14 NNTool 主 界面 


1. 训练 样本 数据 的 导入 


在 NNTool 中 有 两 种 途径 可 生成 训练 样本 数据 。 


(1) 单 击 *New” 按 钮 ， 在 弹出 窗口 中 选择 *Data”" 选 项 卡 ， 直 接 输 入 


数据 ， 如 图 14.15 所 示 。 


输 Create Hetwork or Data 

















Data Type 
[a 和 © Inputs 
OO Tareets 
OO Input Delay States 
OO Layer Delay States 
ee) Dutputs 
© Errors 











A 图 14.15 直接 输入 数据 


界面 中 各 个 单 选 按钮 的 含义 如 下 。 

e Inputs: 输入 值 。 

e Targets: 目标 输出 值 。 

e Input Delay States: 输入 值 欲 延迟 时 间 。 
e Networks: 已 建构 的 网 络 。 

e Outputs: 输出 值 。 

e Errors: 误差 值 。 


e Layer Delay States: 输出 值 欲 延迟 时 间 。 
(2) 单 击 *mport" 按 钮 ， 从 工作 空间 或 .mat 文 件 中 导入 相应 数据 ， 

如 图 14.16 所 示 。 

2. 神经 网 络 的 创建 

单 击 图 14.13 中 的 “New” 按 钮 ， 进 入 “Network” 选 项 卡 ， 在 此 选项 卡 
中 可 对 网 络 的 名 称 、 类 型 、 绪 构 和 训练 函数 等 进行 设置 ， 如 图 14.17 所 
不 。 
TS 


Source Selecta Variable Destination 





Import from MATLAB workspace ‘| I(no selection) 








Name | 
二 二 博克 datal 
© Load from disk file 2 | 
data2 
MAT-file Name data3 Import As: | 
| p © Network 
Browse networki Input Data 
Target Data 


Initial InPut States 
Initial Layer States 


OutputData 








Error Data 











| 过 Import 本 





A 图 14.16 从 工作 空间 或 .mat 文 件 中 输入 数据 


297 Create Network or Data WE 


Network 





Name 





n etworkl 








Network Properties 





Network Type: Feed-forward backprop ~ 













Input data: 





(Select an Input) 


Target data: (Select a Target) 





Training function: 
Adaption learning function: LEARNGDM 


Performance function: 





Number of layers: 2 


Properties for: 


Number of neurons: 
Transfer Function: PURELN _ 


窒 Restore Defaults 


A 图 14.17 创 建 神经 网 络 界面 














图 14.17 中 的 各 个 可 选项 的 含义 如 下 。 

e Name: 输入 网 络 名 称 ， 如 networkl。 

e Network Type: 网 络 类 型 ， 如 Feed-forward backprop〔 前 馈 反 癌 传 
播 网 络 ) 。 


e Input data: 选择 输入 数据 ，Data 选 项 卡 中 已 经 输入 。 

e Target data: 选择 目标 输出 ，Data 选 项 卡 中 已 经 输入 。 

e Training function: 训练 函数 ， 主 要 指 训练 欠 代 中 权 值 的 更 新 方 
式 ， 其 中 TRAINGDM 是 。 下 降 法 ，TRAINLM 是 指 L-M 优 化 
算法 ，TRAINSCG 是 指 量 化 共 轮 梯度 法 ， 除 此 之 外 还 有 TRAINGDX、 
TRAINGDA 等 。 

e Adaption learning function: 适应 性 学 习 函 数 ， 如 
LEARNGDM ( 具 动 量 的 梯度 下 降 法 ) 。 

e Performance function: 性 能 疯 数 ， 如 MSE〔 均 方 误差 ) 。 

e Number of layers: 网 络 出 输入 层 以 外 的 层 数 ， 如 2 隐藏 层 和 输 
出 层 ) 。 

e Properties for: 由 下 拉 式 选单 选取 欲 进行 设 定 的 是 网 络 的 哪 一 
层 ， 如 Layer 2。 

e Number of neurons: 在 “Properties for” 下 拉 选 单 中 所 选择 的 层 中 神 
经 元 的 数目 。 

e Transfer function: 在 “Properties for” 下 拉 选 单 中 所 选择 的 层 中 结 点 
的 传递 函数 ， 即 14.2 市 中 提 到 的 激励 函数 。 其 中 的 TANSIG 和 LOGSIG 
统称 Sigmoid 函 数 ，LOGSIG 是 单 极 性 S 函 数 ， TANSIG 是 双 极 性 S 函 数 ， 
也 叫 双 曲 正切 函数 ，PURELIN 是 线性 函数 。 

设置 完毕 后 单 击 Create 即 可 创建 网 络 。 单 击 View 按 钮 ， 可 查看 神经 
网 络 的 结构 示意 图 ， 如 图 14.18 所 示 。 





和 Neural Network Viewer (view) 





A 图 14.18 神经 网 络 结构 示意 


3. 神经 网 络 的 初始 化 

神经 网 络 创 建 完 之 后 ， 网 络 的 权 值 已 进行 了 初始 化 ， 若 要 对 权 值 和 
浆 值 重新 编辑 ， 则 双击 “NetworkData Manager” 界 面 中 创建 的 网 络 名 
字 ‘“network1”， 会 出 现 如 图 14.19 所 示 的 对 话 框 ， 单 击 “Initialize 
Weights” 按 钮 即 可 。BP 网 络 训 练 时 为 了 避免 陷入 局 部 最 优 ， 有 了 时 和 需要 对 
权 值 重新 设置 ， 这 在 NNTool 中 变 得 简单 易 行 。 





寓 Network: networkl pm 


























view| Train | Simulate | Adapt| 
Directions 








ts View/Edit Weights 








Click [REVERT WEIGHTS] to set weights and biases to theirlast initial values. 
Click [INITIALIZE WEIGHTS] to set weights and biases to new initial values. 
Usethe "InputRanges" area below to view and edit input ranges. 
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A 图 14.19 更 改 权重 界面 


4. 神经 网 络 的 训练 

神经 网 络 创 建 完 成 后 ， 单 击 图 14.19 上 方 的 Train 选项 卡 ， 可 进入 如 
图 14.20 所 示 的 训练 界面 ， 其 中 各 个 变量 的 意义 如 下 。 

show: 每 格 多 少 训练 循环 次 数 会 显示 训练 过 程 ， 例 如 要 每 隔 25 次 迭 
代 显 示 结 果 窗 口 。 

showWindow: 训练 过 程 中 是 否 显 示 UI 窗 口 反 馈 训 练 过 程 中 的 信 











showCommandLine: 训练 过 程 中 是 否 以 命令 行 的 方式 反馈 训练 过 程 
中 的 信息 。 

epochs: 训练 的 最 大 循环 次 数 。 一 般 先 设置 一 个 较 小 的 数 〈( 如 
200) ， 然 后 观察 收敛 结果 。 如 果 结 果 窗 口 的 收 敛 曲线 衰减 较 快 ， 则 表 
示 之 前 的 参数 比较 有 效 ， 因 此 可 填 入 2 000 或 更 大 的 数目 使 得 网 络 收 
化， 否则 修改 之 前 的 参数 。 

ime: 最 大 的 训练 所 须 时 间 ， 单 位 为 s。 由 于 一 般 采 用 最 大 的 训练 迭 
代 次 数 epochs 控 制 迭 代 结 束 ， 因 次 可 设置 此 项 为 Imf， 即 无 时 间 限 制 。 

goal: 性 能 目标 ， 即 网 络 训练 要 达到 的 误差 目标 。 该 值 
与 “Performance Function” 有 关 ， 如 果 使 用 默认 的 MSE， 则 一 般 满 
足 “goalx 样 本 数量 <0.5” 就 可 以 了 。 

max_fail: 最 大 验证 数据 失败 的 次 数 。 

mem_reduc: 降低 内 存 需求 的 系数 。 

min_grad: 最 小 性 能 梯度 。 

mu: 动量 的 初始 值 。 

mu_dec: 动量 减少 系数 。 

mu_inc: 动量 增加 系数 。 

mu_max: 动量 最 大 值 。 








于 Network: network1 59595 ~ 5 | 品 | 
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Training Info| Training Parameters | 








show 125 min_grad 1e-010 
showWindow Itrue mu 0.001 
showCommandLine false mu_dec 0.1 

epochs 1000 mu_inc 10 

time Inf | mu_max 10000000000 
goal i0 

max_fail 6 


mem_reduc 




















| W Train Network 





A 图 14.20 修改 训练 参数 界面 


设置 好 训练 信息 Training Info 和 训练 参数 Training Parameter 后 ， 单 
击 “Train Network” 按 钮 即 开始 了 对 网 络 的 训练 ， 过 程 如 图 14.21 所 示 。 训 
练 结 束 后 ， 分 别 单 击 *Performance” “Training State” 以 及 “Regression” 按 
钮 ， 可 以 观察 网 络 训练 误差 变化 曲线 、 训 练 状态 曲线 以 及 回归 曲线 。 





-Algorithms 


Training: Levenberg-Marquardt (trainlm) 
Performance: Mean Squared Error (mse) 
Data Division: Random (dividerand) 





-Progress- 


Epoch: 0 1000 
Time: 0:00:01 
Performance: G9 | 919e32 | 0.00 





Gradient: 1.00 2.73e-16 | 1.00e-10 
Mu: 0.00100 1.00e-O7 1.00e+10 
Validation Checks: 0 LI 6 








| (plotperform) 


Training State | (plottrainstate) 


Plot Interval: y TT 时 1 epochs 











wy Minimum gradient reached. 





@ Stop Training | | @ Cancel | 





A 图 14.21 训练 结果 图 





神经 网 络 的 仿真 测试 非常 简单 ， 选 定 训 练 好 的 神经 网 络 ， 单 
击 “View” 按 钮 ， 再 单 击 图 14.20 中 所 示 界 面 上 方 的 “Simulate” 选 项 卡 ， 
在 “Simulate Data” 中 的 “Inputs” 一 栏 中 导入 需要 测试 的 数据 (需要 是 工作 
区 的 和 矩阵， 所 以 可 以 事先 将 数据 写 在 但 单独 的 程序 中 ， 需 要 时 运行 程序 
即 可 〉， 然 后 单 击 “Simulate Network”， 测 试 结束 后 可 以 在 “Outputs” 中 
看 到 结果 ， 在 “Errors” 中 可 以 看 到 误差 。 

【 例 14.3】 有 一 个 有 频率 突变 的 正弦 时 变 信号 ， 用 它 来 作 目 标 训 练 

一 个 新 建 的 BP 网 络 ， 用 这 个 网 络 去 对 同 频率 正弦 信号 进行 识别 预测 。 
目标 样本 信和 号 由 下 列 程序 生成 ， 信 和 号 波形 如 图 14.22 所 示 。 

Clear 

timel1=0:0.05:4; 

time2=4.05:0.05:6; 

time=[timel time2|: 

t=[sin(time1*3*pi) sin(time2*6*pi)]; 9% 目 标 样本 

plot(time,t) 








-D6 


ee ti 


-0.8 


A 图 14.22 目标 样本 信和 号 


有 具体 步骤 如 下 。 

1. 在 Matlab 的 命令 窗口 定义 要 用 到 的 样本 和 输入 变量 。 
clear 

timel=0:0.05:4; 

time2=4.05:0.05:6; 

time=[timel time2|]; 

t=[sin(time1l*3*pi) sin(time2*6*pi)]; 9% 目 标 样 本 
p=delaysig(t,1,5); 9% 输 入 样本 

pl=randn(size(t))*0.3+t; ”%t 人 车 加 上 一 个 正 态 分 布 的 随机 噪声 
p1=delaysig(p1,1,5); 9% 仿 真 输入 





2. 在 Matlab 的 命令 窗口 用 nntool 打 开 GUI 工具 窗口 。 导 入 输入 样本 
集 p、 测 试 样本 集 p1， 导 入 训练 目标 t。 

3. 在 如 图 14.14 所 示 的 界面 中 ， 单 击 *New” 按 钮 创建 新 网 络 。 在 弹 
出 的 “Create Network or Data” 对 话 框 中 设置 网 络 名 为 bpnet。 神 经 网 络 类 
型 为 Feed-forward backprop， 神 经 网 络 第 一 层 默 认 设置 (TRAINLM,， 
LEARNGDM, TANSIG) ; 第 二 层 神 经 元 个 数 为 1， 传递 函数 为 
PURELIN 。 

4. 可 以 通过 单 击 “View” 按 钮 查看 网 络 结 构 ， 如 网 14.23 所 示 。 


输 View of Hew Hetwork 





和 图 14.23 网 络 结构 示意 图 


单 击 “Close” 按 钮 关闭 “Create Network or Data” 对 话 框 ， 回 到 如 图 
14.24 所 示 的 nntool 主 界面 中 。 
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A 图 14.24 nntool 主 界面 


5. 双击 网 络 名 称 “bpnet” 进 入 如 图 14.25 所 示 的 对 话 框 ， 单 击 上 方 
的 “train” 选 项 卡 ， 在 网 络 输 入 “Inputs” 下 拉 选 框 中 选择 之 前 导入 的 变量 
p，Targets 目 标 输出 中 选择 ， 其 他 取 默 认 设置 。 

单 击 “Train Network” 按 钮 开始 训练 网 络 ， 得 到 图 14.26 所 示 结 果 。 
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A 图 14.25 训 | 练 设置 








-Algorithms 


Training: Levenberg-Marquardt (trainlm) 
Performance: Mean Squared Error (mse) 
Data Division: Random (dividerand) 


-Progress— 


Epoch: 0 1000 
Time: 0:00:00 
Performance: 1.18 | 0.00 


Gradient: 1.00 1.00e-10 


Mu: 0.00100 1.00e-16 1.00e+10 
Validation Checks: 0 [5 


-Plots 


(plottrainstate) 


Regression (plotregression) 


Plot Interval: 辐 a 1 epochs 











Ww Opening Performance Plot 





| @ Stop Training | @ Cancel | 





A 图 14.26 训 练 结果 图 


6. 测试 。 单 击 图 14.25 上 方 的 “Simulate” 标 签 ， 输 入 pl1， 输 出 结果 变 


量 bpnet_outputs 改 为 bpnet_real_outputs， 如 图 14.27 所 示 ， 单 击 “Simulate 
Network” 按 钮 开始 仿真 测试 。 
7. 选中 要 导出 的 变量 ， 即 bpnet_real_outputs, bpnet_outpnuts， 


bpnet_errors， 单 击 “Export” 按 钮 ， 将 训练 结果 和 测试 结果 导出 到 工作 
区 ， 如 图 14.28 所 示 。 


Network: bpnet 
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A 图 14.27 仿 真 测试 设置 
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A 图 14.28 导 出 变量 到 工作 区 


8. 使 用 下 面 的 命令 将 训练 目标 t 和 实际 测试 输出 进行 可 视 化 的 比 
es 
% 训 练 目 标 t 和 预测 结果 bpnet_real_outputs 图 形 


plot(time,t,time,bpnet_real_outputs); 





园 Performance (plotperform) = 
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A 图 14.30 训练 误差 曲线 





除了 14.3 节 中 介绍 的 可 视 化 工具 nntool 之 外 ，Matlab 的 神经 网 络 工具 
箱 还 为 我 们 提供 了 实现 ANN 的 众多 函数 接口 。 本 节 介 绍 从 网 络 创建 、 
初始 化 、 权 值 调 整 ， 到 训练 和 测试 分 析 等 主要 功能 的 ANN 工 具 箱 函数 。 





Matlab2011 中 推荐 使 用 feedforwardnet 函 数 创 建 一 个 14.2 节 介绍 的 前 
馈 网 络 ， 其 功能 等 同 于 老 版 本 中 的 newff 函 数 ， 但 在 调用 形式 上 更 为 简 


洁 ， 简 化 了 用 户 的 工作 ， 该 函数 的 原型 为 

Network = feedforwardnet(hiddenSizes,trainFcn) 

该 函数 建立 了 网 络 对 象 并 且 初 始 化 了 网 络 权重 和 偶 置 ， 因 此 网 络 就 
可 以 进行 训练 了 。 

参数 说 明 

hiddenSizes: 一 个 指明 了 各 层 隐 含 层 单元 数目 的 行 问 量 ， 默 认 值 为 
10， 表 示 网 络 含有 一 个 单元 数目 为 10 的 隐 含 层 。 

trainFcn: 训练 函数 ， 即 训练 迭代 中 权 值 的 更 新 方式 ， 默 认 值 
为 “trainlm”， 是 指 L-M 优 化 算法 。 

返回 值 

Network 是 一 个 经 过 初始 化 的 网 络 结构 。 

建立 好 网 络 后 ， 可 以 进一步 对 网 络 参 数 进 相关 设置 。 例 如 下 面 的 命 
令 可 以 设置 网 络 中 相应 隐藏 层 的 传递 函数 。 


net.l]ayers{1}.transferFcn = 'tansig'; 








net.layers{2}.transferFcn = logsig ; 

而 下 面 的 命令 可 以 设置 网 络 训练 的 迭代 次 数 和 终止 误差 判 据 。 
net.trainParam.epochs = 1000; 

net.trainParam.goal = le-5; 

此 外 ， 也 可 以 通过 如 下 方式 但 看 网 络 的 相关 信息 。 
net.inputs{1} % 查 看 输入 层 信息 

net.layers{1}, net.layers{2} % 查 看 隐 含 层 信息 
net.biases{1} % 查 看 偏 置信 息 

net.outputs{2} % 查 看 输出 层 信息 

net.IW{1,1}, net.IW{2,1} % 查 看 输入 层 权 值 
net.b{1} % 查 看 偏 置 项 值 

net.LW{2,1} % 碍 看 隐 含 层 权 值 





























14.2.5 小 节 曾 提 到 为 了 避免 搜索 陷入 局 部 极 小 值 ， 可 以 尝试 不 同 初 
始 位 置 的 多 次 训练 。ANN 工 具 箱 中 的 Init 函 数 用 于 对 网 络 进行 重新 的 初 
始 化 。 函 数 原型 如 下 。 

net = initnet) 

其 中 ， 输 入 参数 net 是 建立 好 的 网 络 结构 ， 输 出 net 是 经 过 重新 初始 
化 的 网 络 结构 ， 该 函数 根据 net.initFcn 中 指定 的 更 新 函数 更 新 网 络 的 权 
值 和 偏 置 等 信息 ， 默 认 玉 用 “initlay”， 即 根据 net.layers{i}.initFcn 初 始 化 
第 i 层 网 络 的 权 值 和 偏 置 信息 。 

反问 传播 网 络 (Backpropagation networks 中 net.layers{ij.initFcn 默 认 
设置 为 'ininw'， 即 使 用 Nguyen-Widrow 方 法 进行 初始 化 。 其 他 类 型 网 络 
的 各 层 初始 化 方法 可 能 相同 。 一 种 比较 常用 的 初始 化 函数 是 rands， 即 采 
用 -1 一 1 的 随机 值 进行 初始 化 。 

[ 例 14.4] 对 使 用 feedforwardnet 建 立 的 网 络 进行 重新 初始 化 ， 并 重新 
训练 。 


[x,t] = simplefit_dataset; 





net = feedforwardnet(10); 
net = train(net,x,t); 
net2 = init(net); 


net2 = train(net2,x,t); 





Train 函数 用 于 网 络 的 训练 。 其 常用 调用 形式 如 下 。 

[NET,TR] = train(NET,X,T) 

其 中 : 输入 参数 NET 是 尚未 训练 的 网 络 结构 ，X 是 训练 样本 数 
据 ; 工 是 训练 样本 的 类 标签 。 函 数 返 回 一 个 训练 好 的 网 络 结构 NET 以 及 


一 个 训练 机 构 机 构 TR。 默 认 情 况 下 训练 时 会 出 现 一 个 如 图 14.31 所 示 的 
训练 进程 界面 。 

对 于 训练 好 的 网 络 ， 可 以 通过 view(net) 命 令 来 查看 网 络 结构 ， 效 果 
如 图 14.32 所 示 。 





埃 Neural Network Training (nntraintool) 





-Neural Network 


i 
Data Division: Random (dividerand) 
Training: Levenberg-Marquardt trainlm) 


Performance: Mean Squared Error {mse) 
Derivative: Default (defaultderiv) 








-Progress 


0 1000 
- D0:00:06 
Peromance 7 二 二 于 二 于 靳 靳 天 抽 。 


Gradient: 289 9.91e-06 人 
Mu: 
Validation Checks: 0 








-Plots- 





| | , | (plotperform) 
(plottrainstate) 
(ploterrhist) 
(plotregression) 


Plot Interval: yy 





“4 Minimum gradient reached. 








@ Stop Training | | @ Cancel | 


| a | 


A 图 14.31 训 | 练 进程 











二 
坝 Feed-Forward Neural Network (view) 








sim 函 数 使 用 训练 好 的 网 络 进 行 仿 真 ， 即 测试 。 其 常用 调用 形式 为 

Y = sim(net, X); 

其 中 : net 为 训练 好 的 网 络 结构 ，X 是 神经 网 络 的 输入 ; 返回 值 Y 为 
对 应 于 X 的 网 络 输出 。 

上 述 sim 函 数 的 调用 方法 也 等 同 于 下 面 的 调用 方式 。 

Y = net(X); 





Performance 岗 数 用 于 度量 网 络 的 分 类 性 能 ， 即 分 类 误差 。 其 常用 调 
用 形式 如 下 。 
perf = perform(net,y,t) 
其 中 : 输入 参数 net 是 训练 好 的 网 络 结构 ; y 是 网 络 的 实际 输出 ; t 
网 络 的 目标 输出 。 输 出 perf 给 出 了 实际 输出 与 目标 输出 之 间 的 误差 度 


好 邮 


下 面 通过 一 个 简单 的 实例 来 说 明 上 述 函 数 的 用 法 。 
[ 例 14.5] 建 立 一 个 前 馈 神经 网 络 并 针对 simplefit 数 据 集 进 行 训练 ， 测 


试 其 性 能 。 

[x,t] = simplefit_dataset; % 载 入 数据 集 

net = feedforwardnet(10) % 创 建 网 络 

net = train(net,x,t); % 训 | 练 网 络 

view(net) % 查 看 网 络 结构 

y = net(x); % 测试 网 络 

perf = perform(net,y,t); % 网 络 性 能 

以 上 是 神经 网 络 训 练 和 识别 中 几 个 最 为 常用 的 函数 ，Matlab 的 ANN 
工具 箱 中 与 神经 网 络 相 关 的 函数 还 有 很 多 。 读 者 可 以 在 Matlab 命令 行 
窗口 中 键入 “help nnet+Enter” 命 令 ， 从 而 获得 关于 Matlab 中 神经 网 络 工 具 
箱 中 更 多 函数 的 帮助 索引 信息 。 








支持 向 量 机 (Support Vector Machine, SVM) 是 在 统计 学 习 理论 的 
基础 上 发 展 起 来 的 新 一 代 学 习 算 法 ， 它 在 文本 分 类 、 手 写 识 别 、 图 像 分 
类 、 生 物 信 息 学 等 领域 中 获得 较 好 的 应 用 。 相 比 于 容易 过 渡 拟 合 训练 样 
本 的 人 工 神 经 网 络 ， 文 持 同 量 机 对 于 未 见 过 的 测试 样本 具有 更 好 的 推广 
能 力 (generalization ability) 。 

本 章 的 知识 和 技术 热点 

e SVM 的 理论 基础 

e 核 函 数 

e SVM 推广 到 多 类 问题 的 3 种 集 略 

本 章 的 典型 案例 分 析 

基于 PCA 和 SVM 的 人 脸 识别 系统 























传统 模式 识别 搁 术 只 考虑 分 类 器 对 训练 样本 的 拟 合 情况 ， 以 最 小 化 
训练 集 上 的 分 类 错误 为 目标 ， 通 过 为 训练 过 程 提供 充足 的 训练 样本 来 试 
图 提高 分 类 器 在 未 见 过 的 训 试 集 上 的 识别 率 。 然 而 ， 对 于 少量 的 训练 样 
本 集合 来 说 ， 我 们 不 能 保证 一 个 很 好 地 分 类 了 训练 样本 的 分 类 器 也 能 够 
很 好 地 分 类 测试 样本 。 在 缺乏 代表 性 的 小 训练 集 情况 下 ， 一 味 地 降低 训 
练 集 上 的 分 类 错误 就 会 导致 过 渡 拟 合 。 

支持 向量 机 以 结构 化 风险 最 小 化 为 原则 ， 即 兼顾 训练 误差 (经 验 风 
险 ) 与 测试 误差 (期 望 风 险 ) 的 最 小 化 ， 具 体 体 现在 分 类 模型 的 选择 和 
模型 参数 的 选择 上 。 


15.1.1 分 类 模型 的 选择 


要 分 类 如 图 15.1 〈a) 中 所 示 的 2 类 样本 ， 我 们 看 到 图 中 的 曲线 可 以 
将 (a) 中 的 训练 样本 全 部 分 类 正确 ， 而 直线 则 会 错 分 2 个 训练 样本 ; 然 
而 ， 对 于 (b》 中 的 大 量 测试 样本 ， 简 蛙 的 二线 模 型 却 取得 了 更 好 的 识 
别 结果 。 应 该 选择 什么 样 的 分 类 模型 呢 ? 

图 15.1 中 复杂 的 曲线 模型 过 渡 拟 合 了 训练 样本 ， 因 而 在 分 类 测试 
样本 时 效果 并 不 理想 。 在 第 13.1.5 小 市 ， 我 们 了 解 到 通过 控制 分 类 模型 
的 复杂 性 可 以 防止 过 度 拟 合 ， 因 此 SVM 更 偏爱 解释 数据 的 简单 模型 一 
二 维 空间 中 的 直线 ， 三 维 空间 中 的 平面 和 更 高 维 空间 中 的 超 平面 。 
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(a) 训练 样本 上 的 2 种 分 类 模型 (b) 测试 样本 上 的 2 种 分 类 模型 


A 图 15.1 分 类 模型 的 选择 


15.1.2 模型 参数 的 选择 


图 15.2 所 示 为 二 维 空间 中 的 两 类 样本 ， 可 以 采用 图 15.2 (a)》 中 的 任 
意 直 线 将 它们 分 开 。 哪 条 直线 才 是 最 优 的 选择 呢 ? 





(a) 任意 分 割 超 平面 (b) 最 佳 分 割 超 平 面 


A 图 15.2 分 割 超 平面 





直观 上 ， 距 离 训 练 样本 太 近 的 分 类 线 将 对 噪声 比较 敏感 ， 且 对 训练 
样本 之 外 的 数据 不 太 可 能 归纳 得 很 好 ， 而 远离 所 有 训练 样本 的 分 类 线 将 
可 能 具有 较 好 的 归纳 能 力 。 设 H 为 分 类 线 ，H1、H2 分 别 为 过 各 类 中 离 分 
类 线 最 近 的 样本 且 平 行 于 分 类 线 的 直线 ， 则 H1 与 H2 之 间 的 距离 叫做 分 
类 间隔 〈 又 称 为 余地 ，margin) 。 所 谓 最 优 分 类 线 就 是 要 求 分 类 线 不 但 
能 将 两 类 正确 分 开 〈 训 练 错误 率 为 0) ， 而 且 使 分 类 间隔 最 大 ， 如 图 
15.2 (b) 所 示 。 分 类 线 的 方程 为 wTx +b = 0。 

图 15.2 只 是 在 二 维 情况 下 的 特例 一 最 优 分 类 线 ， 在 三 维 空间 中 则 
是 具有 最 大 间隔 的 平面 ， 更 为 一 般 的 情况 是 最 优 分 类 超 平面 。 实 际 上 ， 
SVM 正 是 从 线性 可 分 情况 下 的 最 优 分 类 面 发 展 而 来 的 ， 其 主要 思想 就 
是 寻找 能 够 成 功 分 开 两 类 样本 并 且 具 有 最 大 分 类 间隔 的 最 优 分 类 超 平 
面 。 

寻找 最 优 分 类 面 的 算法 最 终 将 转化 成 为 一 个 二 次 型 寻 优 问题 ， 从 理 
论 上 讲 ， 得 到 的 将 是 全 局 最 优点 ， 解 决 了 在 神经 网 络 方法 中 无 法 避免 的 
局 部 极 值 问题 。 





























本 节 主 要 介绍 SVM 的 理论 基础 和 实现 原理 ， 将 分 别 阐述 线性 可 分 、 
非 线 性 可 分 以 及 需要 核 函 数 映射 这 3 种 情况 下 的 SVM。 最 后 还 将 学 习 如 
何 将 SVM 推广 至 多 类 问题 。 


15.2.1 线性 可 分 情 ; JSVM 


如 果 用 一 个 线性 函数 (如 二 维 空间 中 的 直线 ， 三 维 空间 中 的 平面 以 
及 更 高 维 数 空间 中 的 超 平面 ) 可 以 将 两 类 样本 完全 分 开 ， 束 称 这 些 样本 
是 线性 可 分 (linearly separable) 的 。 反 之 ， 如 果 找 不 到 一 个 线性 函数 
能 够 将 两 类 样本 分 开 ， 则 称 这 些 样本 是 非 线 性 可 分 的 。 

一 个 简单 的 线性 可 分 与 非 线性 可 分 的 例子 如 图 15.3 所 示 。 





(a) 线性 可 分 的 2 类 样本 (b) 非 线 性 可 分 的 2 类 样本 


A 图 15.3 线性 可 分 与 非 线 性 可 分 


已 知 一 个 线性 可 分 的 数据 集 {(X1,y1),(X2,y>),…,(XN,yn)}， 样 本 特征 
向 量 X ErD ， 即 xX 是 D 维 实数 空间 中 的 向 量 ， 类 标签 ye {-1, +1}， 即 只 
有 2 类 样本 ， 此 时 通常 称 类 标签 为 +1 的 样本 为 正 例 ， 称 类 标签 为 -1 的 样 
本 为 反例 。 











现在 要 对 这 2 类 样本 进行 分 类 。 我 们 的 目标 就 是 寻找 最 优 分 割 超 平 


面 ， 即 根据 训练 样本 确定 最 大 分 类 间隔 的 分 割 超 平面 ， 设 最 优 超 平面 方 
程 为 WwW ”+b=0， 根 据点 到 平面 的 距离 公式 ， 样 本 X 与 最 佳 超 平面 (Ww， 


[WX+Db| 





b) 之 间 的 距离 为 ”lwl| ， 注 意 通 过 等 比例 地 缩放 权 矢 量 冰 和 偏差 项 
b 最 佳 超 平面 存在 着 许多 解 ， 我 们 对 超 平面 进行 规范 化 ， 选 择 使 得 距 超 
平面 最 近 的 样本 x4 满足 到 bl=1 的 六 和 b， 即 得 到 规范 化 超 平面 。 


此 时 从 最 近 样 本 到 Z 边 缘 的 距离 为 








ps 
De (15-1) 
wll | will 
是 分 类 间隔 (余地) 变 为 
2 
m= (15-2) 


wl 


如 图 15.4 所 示 。 





和 图 15.4 最 佳 分 割 超 平面 的 分 类 间隔 


人 至此， 问题 逐渐 明明 化 ， 我 们 的 目标 是 寻找 使 得 式 〈15-2) 最 大 化 


的 法 向 量 放 ， 之 后 将 痢 代 入 关系 式 辽 ”Erbj=1， 即 可 得 到 b。 
最 大 化 式 〈15-2) 等 价 于 最 小 化 。 


J(w) = 5 | 这 人 (15-3 ) 
除 此 之 外 ， 还 有 以 下 的 约束 条 件 。 


yw Eth 21 Viet{l,2,..%,N)} (15-4) 





这 是 因为 距离 超 平面 最 近 的 样本 点 X# 满 足 凶 ”+b|j=1， 而 其 他 样 
本 点 ;距离 超 平面 的 距离 d(X 站 要 大 于 等 于 dt 售 ， 因 此 有 





ri (15-5) 


具体 地 说 ， 我 们 设 定 正 例 所 在 的 一 侧 超 平面 的 正方 向 ， 则 对 于 正 例 
(对 应 类 标签 y 为 +1 的 样本 X;) 有 


Cm (15-6) 
而 对 于 反例 (对 应 类 标签 y; 为 -1 的 样本 Xi:) 有 
(WY*,+b) -1 Cs 


在 式 (15-6) 和 式 (15-7) 的 两 端 分 别 乘 以 对 应 其 Xi 的 类 标签 y;， 
由 于 对 应 式 〈15-6) 和 式 〈15-7) 的 Yi 分 别 为 +T1 和 -1， 因 此 得 到 式 〈15- 
4) 中 统一 形式 的 表达 式 。 

注意 到 式 (15-3) 中 的 目标 函数 J(W) 是 二 次 函数 ， 意 味 着 只 存在 一 
个 全 局 最 小 值 ， 因 此 我 们 不 必 再 像 在 神经 网 络 的 优化 过 程 中 那样 担心 搜 
索 陷 入 局 部 极 小 值 。 现 在 要 做 的 就 是 在 式 〈15-4) 的 约束 条 件 下 找到 能 
够 最 小 化 式 〈15-3) 的 超 平面 方向 量 避 。 这 是 一 个 典型 的 条 件 极 值 问 
题 ， 可 以 使 用 我 们 在 高 等 数学 中 学 习 过 的 拉 格 朗 日 乘 数 法 求解 。 

通过 对 式 (15-4) 中 的 每 一 个 约束 条 件 乘 上 一 个 拉 格 朗 日 乘 数 qi， 
然后 带 入 式 〈15-3) 中 ， 可 将 此 条 件 极 值 问题 转化 为 下 面 的 不 受 约束 的 











优化 问题 ， 即 关于 Wb 和 a，(i=1,2,.….,N) 来 最 小 化 L。 
] 了 N 太 
L(w,b,a) = wl -2 Bj Is wo0 (15-8) 


求 L 对 Ww 和 b 的 偏 导 数 ， 并 令 其 等 于 零 。 


Bere C 
Se) =0S m= yn (15-9) 
Ow =] 
一 N 
OU Da ed (15-10) 
ob i=l 


展开 式 〈15-8) ， 得 


L(w, bh) = mPa iW Xi 一 Rd CE (15-11) 


i=] i=] 


再 将 式 (15-9) 和 式 (15-10) 代入 式 (15-11) ， 得 


L(w, 六 oO =7™ oo Xi)—w a Xi 一 Wo 


i=] i=] 


] N 
-1 ai) + 
2 条 i=1 
|] N N 
= 一 二 》 oj 入 (2》 Aapyix) + 0 
2 7 j= i=1 
] N 
一 了 一 
-2 全 rp Xi 十》 ai 


i=] j=l i=] 


上 式 与 W、b 无 关 ， 仅 为 go 的 函数 ， 记 为 


L(0)=-1Y aa pip ED (15-12) 


2 说 


此 时 的 约束 条 件 为 aiz0， 并 且 
N 
> wipr=0: (15-13) 


这 是 一 个 拉 格 明日 对 偶 问 题 ， 而 该 对 偶 问 题 是 一 个 关于 oa 的 凸 二 次 


规划 问题 ， 可 借助 一 些 标准 的 优化 技术 求解 ， 这 里 不 再 详细 讨论 。 





注意 
原始 问题 的 复杂 度 由 维度 决定 (Ww 是 平面 法 向 量 ， 对 每 维 有 1 个 系 
数 ) ， 然 而 对 侦 问 题 由 训练 数据 的 数目 决定 (每 个 样本 存在 一 个 拉 格 天 


日 乘 数 “i) ， 此 外 ， 在 式 〈15-12) 中， 训练 数 据 只 作为 点 积 的 形式 出 
现 。 

在 解 得 a 之 后 ， 最 大 余地 分 割 超 平 面 的 参数 Ww 和 b 便 可 由 对 偶 问 题 
的 解 o 来 确定 。 








N 
W= Dy (15-14) 


在 样本 线性 可 分 的 情况 下 ， 由 于 有 关系 式 到 kbl=1， 其 中 天 4 是 
任意 一 个 距离 最 优 分 类 超 平面 最 近 的 向 量 ， 即 可 使 所 4b| 取 到 最 小 值 
的 Xk 之 一 ， 故 可 将 六 和 Xk 代入 上 式 ， 从 而 求 出 b。 


b=1-min(w-xX) 或 b=-l-max(w.:X) 
ee ER 


更 一 般 的 情况 下 (包括 15.2.2 小 节 的 非 线 性 可 分 的 情况 ) ， 由 于 两 
类 样本 中 与 分 割 超 平面 (w, b) 的 最 近 距 离 不 再 一 定 是 1 且 可 能 不 同 ， 因 而 
b 为 








1 .，, 
= -= (min(w. Xi)+ max(w. x;)) (15-15) 
a yi=+]1 y=—l 


式 (15-15) 包含 了 线性 可 分 时 的 情况 。 
根据 优化 解 的 性 质 (Karush - Kuhn - Tucker conditions) ， 解 a 必 须 
满足 


ai[y (Ww E+b) -1]=0, Vi=1...N (15-16) 


因此 对 于 每 个 样本 ， 必 满足 m=0 或 (六 ”1+b)- 1=0 。 从 而 对 那 
些 满足 汪 玉 ”i+b)- 10 的 样本 Xi 对 应 的 ma,， 必 有 as=0; 而 只 有 那些 
满足 瀛 Wi+b)- 10 的 样本 Xi 对 应 的 mz， 才能 有 os>0。 这 样 ，o>0 
只 对 应 那些 最 接近 超 平面 VX( 六 1i+ 妇 ) -1=0) 的 点 Xi， 汶 些 点 被 称 为 
支持 癌 量 ， 如 图 15.5 所 示 。 

注意 

在 式 (15-14) 中 ， 所 有 < i=0 的 样本 Xi 对 于 求 和 没有 影响 ， 只 有 支 
持 向 量 (aiz0 的 样本 Xi) 对 最 优 分 割 超 平面 的 定义 有 贡献 。 因 此 ， 完 整 
的 样本 集合 可 以 只 使 用 支持 向 量 来 代 蔡 ， 将 会 得 到 相同 的 最 优 分 割 超 平 
面 。 

















4 图 15.5 文 持 癌 量 。 两 类 样本 的 文 持 癌 量 分 别 用 “ 零 " 圈 出 


求 出 上 述 各 个 系数 a、 到 、b 对 应 的 最 优 解 a*、 六 、b* 后 ， 得 到 如 
下 的 最 优 分 类 函数 。 


h(xX)= sgn((wW Xx)+b )= sgn( Ci Ji 人 (二 .XxX)+b ) C13-17) 


i=] 














这 里 向 量 * 是 待 分 类 的 测试 样本 ， 向 量 X*i (Ci=12,...N) 是 全 部 N 个 





ee 
的 形式 出 现 。 





1. 约束 条 件 
为 处 理 样本 非 线 性 可 分 的 情况 ， 我 们 放宽 约束 ， 引 入 松弛 变量 
gi>0， 此 时 约束 条 件 变 为 


yi(W:x+h)21-e, 60 (i=1,2,%,N) (15-18) 
BB 
Ww: 庆 +b 之 +1 一 6;， yi = 十 1( 为 正 例 ) 
WX +p < 一 1 十 ci， yi= +1(X 为 反例 ) 


图 15.6 可 帮助 我 们 理解 6 的 音义， 具体 可 分 为 以 下 3 种 情况 来 考虑 。 





4 图 15.6 非 线性 可 分 情况 下 的 最 佳 分 割 超 平面 。 








标号 1: 分 类 间隔 支持 向 量 ， 对 应 sj=0; 

标号 2， 非 分 类 间隔 支持 向 量 (分 类 间隔 中 ) ， 对 应 0<e,<1; 

标号 3， 非 分 类 隔 支持 向 量 s>1。 

。 当 g -0， 约 束 条 件 退化 为 线性 可 分 时 的 情况 一 (并 "+D)>1， 
这 对 应 于 分 类 间隔 (余地) 以 外 且 被 正确 分 类 的 那些 样本 ， 即 图 中 左 侧 
虚线 以 左 ( 包 括 在 左 侧 虚线 上 》 的 所 有 “” 形 样本 点 以 及 位 于 右 侧 虚 线 
以 右 的 (包括 在 右 侧 虚线 上 ) 的 所 有 “x* 形 样本 点 。 


。 当 0<ei<1，yi( “i +b) 是 一 个 0~1 之 间 的 数 ， 小 于 1 意味 着 我 们 
对 于 约束 条 件 放宽 到 允许 样本 落 在 分 类 间隔 之 内 ， 大 于 0 则 说 明 样本 仍 
可 被 分 割 超 平面 正确 分 类 ， 对 应 于 图 中 标号 为 2 的 样本 。 


。 最 终 当 gj>1，yi( “1+b)<0， 此 时 约束 条 件 已 放宽 到 可 以 允许 有 
分 类 错误 的 样本 ， 如 图 中 的 第 3 类 样本 。 有 具体 地 说 ， 图 中 标号 为 3 
的 “。” 形 样本 的 1<e:<2， 而 标号 为 3 的 “x” 形 样本 的 ;>2。 

图 15.6 中 标号 为 1、2、3 的 均 为 在 线性 不 可 分 情况 下 的 支持 问 量 。 
由 于 在 这 种 情况 下 允许 样本 落 入 分 类 间隔 之 内 ， 我 们 常 把 这 个 分 类 间隔 
叫做 软 间 隔 (soft margin) 。 

2. 目标 函数 

利用 一 个 附加 错误 代价 系数 C 后 ， 目 标 函 数 变 为 




















Ny 
fw, b,E)= 5 | Ww | 人 6; (1$-19) 
我 们 的 目标 是 在 式 (15-18) 的 约束 下 ， 最 小 化 目标 函数 式 (15- 
19) 。 最 小 化 目标 函数 的 第 1 项 也 就 等 同 于 最 大 化 分 类 间隔 ， 这 在 介绍 
线性 可 分 情况 时 已 经 曾 述 过 了 ， 而 目标 函数 的 第 2 项 是 分 类 造成 的 错误 
代价 ， 只 有 对 应 于 e;>0 的 那些 “错误 ”样本 才 会 产生 代价 〈 这 里 所 说 








的 “错误 ?并 不 仅仅 指 被 错误 分 类 的 标号 为 3 的 样本 ， 也 包括 那些 空白 间 
隔 之 内 的 标号 为 2 的 样本 ) 。 事 实 上 最 小 化 此 目标 函数 体现 了 最 大 分 类 
间隔 (最 小 化 式 (15-19〉 中 的 第 1 项 ) 与 最 小 化 训练 错误 〈 最 小 化 式 
(15-19〉 中 的 第 2 项 ) 之 间 的 权衡 。 

直观 上 我 们 自然 希望 “错误 ”样本 越 少 越 好 ， 然 而 不 要 忘记 这 里 的 错 
误 是 训练 错误 ， 如 采 我 们 一 味 妃 求 最 小 化 训练 错误 代价 就 可 能 导致 得 到 
一 个 小 余地 的 超 平面 ， 这 无 疑 会 影响 分 类 器 的 推广 能 力 ， 在 对 测试 样本 
分 类 时 就 很 难得 到 满意 的 结果 ， 这 也 属于 一 种 过 渡 拟 合 。 通 过 调整 代价 
系数 C 的 值 可 以 实现 两 者 之 间 的 权衡 ， 找 到 一 个 最 佳 的 C 使 得 分 类 超 平 
面 兼 顾 训练 错误 和 推广 能 

不 同 的 C 值 对 于 分 类 的 影响 如 图 15.7 所 示 。 图 15.7 〈(a) 中 的 情况 对 
应 一 个 相对 较 大 的 C 值 ， 此 时 每 错 分 一 个 样本 i (e;>0〉 都 会 使 式 (15- 
19) 中 的 第 2 项 增 大 很 多 ， 第 2 项 成 为 影响 式 〈“15-19〉 的 主要 因素 ， 
此 最 小 化 式 〈15-19) 的 结果 是 尽 可 能 少 地 错 分 训练 样本 以 使 得 第 2 项 
尽 可 能 小 ， 为 此 可 以 适当 牺牲 第 1 项 (使 第 1 项 大 一 些 ， 即 使 分 类 间隔 小 
一 些 ) ， 于 是 导致 了 图 15.7 (a)〉 中 一 个 较 小 间隔 但 没有 错 分 训练 样本 的 
分 类 超 平 面 ， 图 15.7 (b〉 图 展示 了 将 图 15.7 (a)〉 中 得 到 的 分 类 超 平 面 
应 用 于 测试 样本 的 效果 ， 可 以 看 出 由 于 分 割 超 平面 间隔 较 小 ， 分 类 器 的 
推广 能 力 不 强 ， 对 于 测试 样本 的 分 类 不 够 理想 。 

如 果 在 训练 过 程 中 选择 一 个 适当 小 一 些 的 C 值 ， 此 时 最 小 化 式 (15- 
19) 将 兼顾 训练 错误 与 分 类 间隔 。 如 图 15.7〈c) 所 示 ， 虽 然 有 一 个 训练 
样本 被 错 分 ， 但 得 到 了 一 个 较 大 分 类 间隔 的 超 平 面 ， 图 15.7 〈d) 展示 
了 将 图 15.7(c) 中 得 到 的 分 类 超 平 面 应 用 于 测试 数据 时 的 情形 ， 我 们 看 
到 由 于 分 类 间隔 较 大 ， 分 类 器 具有 良好 的 推广 能 力 ， 从 而 很 好 地 分 类 了 
测试 样本 。 









































PP > 
(a) C 的 取 值 过 大 导致 过 渡 拟 合 训练 样本 的 小 余地 分 类 超 平面 (b) 将 (a) 中 过 渡 拟 合 的 分 类 器 应 用 于 测试 样本 


A 图 15.7 惩罚 项 参数 C 的 不 同 取 值 对 于 分 类 器 性 能 的 影响 











一 > > 
(ce) 取 值 合适 的 C: 允许 适当 地 错 分 训练 样本 从 而 得 到 较 大 余地 的 分 类 超 平面 〈d) 将 (c) 的 较 大 余地 分 类 器 应 用 于 测试 样本 





A 图 15.7 惩 玉 项 参数 C 的 不 同 取 值 对 于 分 类 器 性 能 的 影响 〈 续 ) 


由 此 我 们 看 到 了 选择 合适 的 错误 代价 系数 C 的 重要 性 ， 在 15.4.3 小 市 
关于 SVM 综 合 案 例 的 讨论 中 将 提供 一 种 切实 可 行 的 方法 来 选择 C 的 取 
值 。 而 正 因为 在 这 种 处 理 非 线 性 可 分 问题 的 方法 中 引入 了 错误 代价 系数 
C， 这 种 文 持 疝 量 机 常 被 称 为 C-SVM。 

3. 优化 求解 

类 似 于 线性 可 分 情况 下 的 推导 ， 最 终 得 到 下 面 的 对 偶 问 题 。 

在 如 下 的 约束 条 件 下 ， 

















~N 
2 oi=0. Om OI=T2,N (15-20) 


i=l 


最 大 化 L(o)， 有 


We) -Yo -IY yy) 全 沁 才 有 


i 


同样 在 利用 三 次 规划 技术 解 得 最 优 的 a 的 值 q” 之 后 ， 可 以 计算 出 w” 
和 b” 的 值 ， 最 终 的 决策 函数 与 式 (15-17) 相同 。 





线性 分 类 器 的 分 类 性 能 毕 昔 有限 ， 而 对 于 非 线 性 问题 一 味 放宽 约束 
条 件 只 能 导致 大 量 样本 的 错 分 ， 这 时 可 以 通过 非 线性 变换 将 其 转化 为 某 
个 高 维 空间 中 的 线性 问题 ， 在 变换 空间 求 得 最 佳 分 类 超 平面 。 

1. 非 线 性 映射 

如 图 15.8 所 示 ， 图 〈a) 中 给 出 了 有 是 在 n 维 空间 中 非 线性 可 分 的 2 类 样 
本 《限于 图 的 表现 能 力 ， 只 男 出 了 二 维 ) ， 通 过 一 个 非 线性 映射 wy: 证 
-中 将 样本 映射 到 更 高 维 的 特征 空间 马 〈 限 于 图 的 表现 能 力 ， 只 画 出 
了 二 维 ) ， 映 射 后 样本 Xi) 〈i=12,...,N) 在 新 的 特征 空间 中 线性 
可 分 ， 经 训练 可 得 到 一 个 图 15.8 (b〉 中 所 示 的 D 维 的 分 割 超 平 面 。 而 再 
将 此 D 维 分 割 超 平面 映射 回忆 ， 该 超 平面 可 能 就 对 应 于 原 n 维 中 的 一 条 能 
够 完全 分 开 2 关 样本 的 超 抛物 面 ， 如 图 15.8〈c) 所 示 。 

图 15.8 所 展示 的 只 是 一 种 比较 理想 的 情况 ， 实 际 中 样本 可 能 在 映射 
到 高 维 空间 号 后 仍 非 线性 可 分 ， 这 时 只 需 在 上 中 采用 15.2.2 小 节 介 绍 的 
非 线性 可 分 情况 下 的 方法 训练 SVML 还 有 一 点 要 说 明 的 是 在 分 类 时 我 们 
永远 不 需要 将 心中 的 分 割 超 平面 再 映射 回馈 当中， 而 是 应 让 分 类 样本 xG 
也 经 非 线性 变换 映射 到 空间 tD 中 ， 然 后 将 WX) 送 入 冲 中 的 SVM 分 类 
厂 即 可 。 

















A 图 15.8 使 用 非 线 性 映射 由 将 已 知 样本 映射 到 (高 维 ) 特征 空间 RD 


2. 优化 求解 
类 似 于 15.2.1 小 市 中 的 推导 ， 最 终 得 到 了 下 面 的 对 侦 问 题 。 
在 如 下 的 约束 条 件 下 ， 有 








N 
D0 一 一 人 人 (15-22) 


最 大 化 目标 函数 为 


10)= Pa -六 aa yiyi(W(xi) -w(xi)) (15-23) 


i=] j=l 


N 
w= Yay (x ) 
此 时 ， 因 为 有 i=1 


故 最 终 的 决策 (分 类 ) 函数 为 


N 
h(x)= sgn(w:w(x)+b)= sgn(>, Qipi(VE) YE) +D), weR?,beR (15-24) 
i=] 











同样 ， 由 于 对 非 支 持 问 量 而 言 其 Qs= 0， 所 以 上 式 可 以 写成 


h(x) = sgn( 六 Qi yi (Ww (Xi) -w(x)) + bp) (1$-25) 


ieSV 


其 中 ，SV 表 示 文 持 问 量 〈(Support Vector) 的 集合 。 

注意 

式 〈15-23) 、 式 (15-24) 在 形式 上 同 式 〈15-21) 、 式 (15-17) 
非常 相似 ， 只 是 将 原 特 征 空间 中 的 癌 量 点 积 谷 换 为 原 问 量 在 非 线 性 映射 
空间 马 中 的 映像 之 间 的 点 积 。 

下 面 我 们 来 看 一 个 通过 非 线 性 映射 将 原本 非 线 性 可 分 问题 变 为 映射 
空间 中 线性 可 分 问题 的 实例 。 

[ 例 15.1] 异 或 (XOR) 问题 的 SVM 

异 或 问题 是 最 简单 的 一 个 无 法 直接 对 样本 特征 同 量 采 用 线性 判别 函 
数 来 解决 的 问题 ， 在 X =(1,1)7 的 点 1 和 在 X =(-1,-1)7 的 点 3 属于 类 W， 
(图 15.9 中 的 实心 圆 点 )， 在 X* =(1,-1)7 的 点 2 和 在 X* =(-1, DT 的 点 4 属 
于 W，〈 空 心 圆 点 ) 。 

这 样 在 二 维 空间 普 中 ， 我 们 无 法 找到 一 条 直线 〈r 中 的 线性 分 类 
器 ) 可 以 将 两 类 样本 完全 分 开 。 通 过 使 用 SVM 的 方法 ， 利 用 非 线性 映射 
由 将 这 4 个 特征 向 量 映射 到 更 高 维 的 空间 部 可 以 解决 异 或 问题 ， 在 心中 这 
4 个 特征 回 量 是 线性 可 分 的 。 存 在 很 多 这 样 的 由 函数 ， 这 里 选用 一 个 最 简 
单 的 且 展 开 不 超过 2 次 的 由 。 











(a) 寞 或 问题 (b) 映射 到 6 维 空间 后 的 2 维 投影 


A 图 15.9 异 或 问题 的 非 线 性 映射 


交 一 信友 二 (2 2 2 y 


其 中 ，x 为 特征 向 量 苇 在 第 i 维 上 的 分 量 ，V2 是 为 了 规范 化 。 
通过 映射 wy， 原 二 维 空间 中 的 4 个 点 被 分 别 映射 至 6 维 空间 。 


T=(LD— SR = 人 /2 2 /211) 
dd a a 
部 = 人 和 
jial Ys ,iD 
图 15.9 (b》 所 示 是 训练 样本 * 被 映射 到 6 维 空间 后 的 分 布 情况 ， 由 


于 无 法 画 出 6 维 空间 ， 图 中 显示 的 是 样本 在 第 2 和 第 4 维度 上 的 二 维 投 
影 。 很 明显 在 这 个 空间 中 可 以 找到 最 佳 分 割 超 平面 g(x1,x2)=xix2=0， 
且 空白 间隔 为 ~2 ， 该 超 平面 对 应 于 原始 特征 空间 的 双 曲线 x1,x2=+1。 
下 面 给 出 求解 的 过 程 。 
根据 式 〈15-22) ， 约 束 条 件 为 











N 
DQiyi =0 之 Qi 一 aa 上 +oas 一 cd =0, 0<a,(k=1,2,3,4) 
i=] 
由 于 线性 可 分 这 里 可 不 考虑 代价 系数 C。 在 此 约束 条 件 下 ， 最 大 化 
式 (15-23) ， 即 





4 1.4 4 
L(a)= 0 > DR 
i=1 i=1 /=1 
显然 ， 由 于 这 个 问题 的 对 称 性 ， 可 取 oq=a3，o=a4。 而 且 对 于 这 个 





简单 的 问题 ， 我 们 不 必 采 用 标准 的 二 次 规划 技术 ， 而 是 可 以 直接 用 解析 





的 方法 求解 ， 将 训练 样本 的 特征 向 量 x 和 对 应 的 类 标签 y 代 入 上 式 ， 解 
得 Q# =1/8，k=1,2,3,4， 从 而 可 知 这 4 个 训练 样本 都 是 支持 向 量 。 

注意 

大 多 数 SVM 解 决 的 问题 支持 癌 量 总 是 远 远 少 于 样本 总 数 ， 但 由 于 例 
15.1 中 的 异 或 (XOR) 问题 具有 高 度 的 对 称 性 ，4 个 训练 样本 均 为 文 持 
癌 量 。 

3. 核 函 数 (Kernel) 

例 15.1 成 功 地 利用 了 非 线 性 映射 由 解决 了 在 原 二 维 空间 中 非 线性 可 
分 的 异 或 问题 ， 然 而 这 只 是 一 个 简单 的 例子 ， 计 算 所 有 样本 的 非 线 性 映 
射 并 在 高 维 空间 中 计算 其 点 积 第 党 是 困难 的 。 笠 运 的 是 ， 在 一 般 情 况 下 
我 们 都 不 必 如 此 ， 甚 至 不 需要 去 关心 映射 的 具体 形式 。 注 意 到 在 上 面 
的 对 偶 问 题 中 , 不 论 是 式 〈15-23) 的 寻 优 目标 函数 式 还 是 式 〈15-24) 的 
决策 (分 类 ) 函数 都 只 涉及 样本 特征 同 量 之 间 的 点 积 运 算 业 《xi) 
由 5) 。 因 此 ,在 高 维 空间 实际 上 只 需 进 行 点 积 运算 , 而 再 局 维 数 的 问 
量 的 点 积 结 末 也 是 一 个 贡 数 ， 那 么 能 个 抛 开 上 映射 由 (xi) 和 由 《xj) 的 其 
体形 式 而 下 接 根 据 x; 和 x 在 原 特征 空间 中 得 到 y 《xi) 站 5) 的 利 数 结 
果 呢 ? 管 案 是 肯定 的 ， 因 为 这 种 点 积 运 算是 可 以 用 原 特 征 空间 中 的 核 函 
数 〈(kernel〉 实现 的 。 

根据 泛 函 的 有 关 理 论 , 只 要 一 种 核 沙 数 K(%i, Xj) 满足 Mercer 条 件 , 它 束 
对 应 某 一 变换 空间 Cr ) 中 的 内 积 ， 这 似乎 很 神奇 。 下 面 就 引入 核 函 数 
的 概念 。 

核 函 数 是 一 个 对 称 函 数 K: mxm 伪 R， 它 将 两 个 叫 空 间 中 的 n 维 向 
量 映 射 为 一 个 实数 。Mercer 核 函数 计算 高 维 空间 中 的 点 积 。 





















































K(xi,x))=Yy(xi) :w(x;), 其 中 wy:R" 一 R? (15-26) 


这 样 如 果 能 够 在 特征 空间 中 发 现 计算 点 积 的 Mercer 核 函数 ， 束 可 以 





使 用 该 核 函 数 代 替 文 持 向 量 机 中 的 点 积 运 算 ， 而 根本 不 用 去 关心 非 线性 
映射 由 的 具体 形式 ， 因 为 在 SVM 训练 和 分 类 中 的 所 有 相关 公式 中 ， 由 都 
没有 单独 出 现 过 ， 总 是 以 jh (5) 站 05) 的 形式 出 现 。 

因此 采用 适当 的 内 积 核 函 数 K(xi, xj) 就 可 以 实现 从 低 维 空间 向 高 维 
空间 的 映射 ， 从 而 实现 某 一 非 线 性 分 类 变换 后 的 线性 分 类 ,而 计算 复杂 
度 却 没有 增加 。 此 时 式 〈15-23) 的 优化 目标 函数 变 为 


~N ] NW 
Eft) 一 0 -72 2 9007yiy1 K(x)) ( 15-27 ) 
i=] 


全 j=] j= 
而 式 (15-24) 的 决策 (分类) 函数 也 变 为 


h(x) = sgn( of .AE ,Xi )+ p” ) (15-28) 
ieSV 

常用 的 核 函 数 如 下 。 

e 线性 核 函数 : K(x,y)=x:y (15-29) 

e 多 项 式 核 函数 : K(x,y)=(x :y+1) 4, d=1,2,.. (15-30) 

e@ 径 向 基 核 函数 : K(x,y)=exp(-yllx-y||*) (15-31) 

e Sigmoid 核 函数 : K(x, y)=tanh(b(x:y)-c) (15-32) 

15.4.4 小 节 将 对 这 几 种 常用 的 核 函 数 的 各 目 特 点 以 及 如 何 选 择 适用 
于 特定 问题 的 核 函 数 进 行 介绍 ， 并 对 最 为 常用 的 径 癌 基 核 函数 的 使 用 进 
行 详细 的 阐述 。 


15.2.4 推广 到 多 类 问题 


在 之 前 的 问题 描述 中 读者 可 能 也 已 经 注意 到 ，SVM 是 一 个 二 分 器 ， 
只 能 用 于 2 类 样本 的 分 类 。 当 然 如 果 仅 仅 如 此 ，SVM 是 不 可 能 得 到 如 此 


广泛 的 应 用 的 。 下 面 就 来 研究 如 何 将 二 分 SVM 进行 推广 ， 使 其 能 够 处 


理 多 类 问题 。 





有 3 种 常用 的 策略 可 用 于 推广 SVM 解 决 多 类 问题 ， 下 面 以 一 个 4 类 问 
题 为 例 进 行 说 明 。 

1. 一 对 多 的 最 大 响应 策略 (one against all) 

假设 有 A、B、C、D4 类 样本 需要 划分 。 在 抽取 训练 集 的 时 候 ， 分 
别 按照 如 下 4 种 方式 划分 。 

e A 所 对 应 的 样本 特征 癌 量 作为 正 集 ( 类 标签 为 +1) ，B、C、D 所 
对 应 的 样本 特征 向 量 作 为 负 集 (类 标签 为 -1) 。 

e B 所 对 应 的 样本 特征 向 量 作为 正 集 ，A、C、DD 所 对 应 的 样本 特征 
癌 量 作为 负 集 。 

e C 所 对 应 的 样本 特征 向 量 作 为 正 集 ，A、B、D 所 对 应 的 样本 特征 
器 量 作为 负 集 。 

e DD 所 对 应 的 样本 特征 向 量 作为 正 集 ，A、B、C 所 对 应 的 样本 特征 
器 量 作为 负 集 。 

对 上 述 4 个 训练 集 分 别 进行 训练 ， 得 到 4 个 SVM 分 类 器 。 在 测试 的 时 
候 ， 把 未 知 类 别 的 测试 样本 x 分别 送 入 这 4 个 分 类 器 进行 判决 ， 最 后 每 
个 分 类 器 都 有 1 个 响应 ， 分 别 为 fj(X)、f5(X)、fs(X)、f4(X*)， 最 终 的 决 
策 结果 为 max(f1(X),f2(X ),fa(X),fa(*))， 即 4 个 响应 中 的 最 大 者。 

注意 这 里 所 说 的 响应 是 指 决策 函数 AD = Sgn(W"W(X)+b) 在 符号 化 
之 前 的 输出 (站 =W"W(X)+b，p(X) 表 示 X 位 于 分 割 超 平面 的 哪 一 侧 ， 
只 反映 了 X 的 类 别 ， 而 f(xXX*) 还 能 体现 出 * 与 分 割 超 平面 的 距离 远近 ( 绝 
对 值 越 大越 远 ) ， 因 此 它 能 够 反映 出 样本 

属于 某 一 类 别 的 置信 和 度 。 例 如 ， 同 样 位 于 分 割 超 平面 正 侧 的 2 个 样 
本 ， 显 然 更 加 远离 超 平面 的 样本 是 正 例 的 可 信和 度 较 大 ， 而 紧 贴 着 超 平 面 
的 样本 则 很 有 可 能 是 路 过 分 割 超 平 面 的 一 个 反例 。 

2. 一 对 一 的 投票 策略 (one against one with voting) 

将 A、B、C、D4 类 样本 两 类 两 类 地 组 成 训练 集 ， 即 (A,B)、(A,C)、 





























(A,D)、 (B,C)、 (B,D)、(C,D)， 得 到 6 个 (对 于 n 类 问题 ， 为 n(n-1)/2 个 ) 
SVM 二 分 器 。 在 测试 的 时 候 ， 把 测试 样本 xX 依次 送 入 这 6 个 二 分 类 器 ， 
采取 投票 形式 ， 最 后 得 到 一 组 结果 。 投 票 是 以 如 下 方式 进行 的 。 

初始 化 : vote(A)= vote(B)= vote(C)= vote(D)=0。 

投票 过 程 : 如 果 使 用 训练 集 (A,B) 得 到 的 分 类 器 将 X 判 定 为 A 类 , 则 
vote(A)=vote(A)+1， 和 否则 vote(B)=vote(B)+1; 如 果 使 用 (A,C) 训 练 的 分 类 器 
将 XX 判定 为 A 类 , 则 vote(A)=vote(A)+1， 否 则 vote(C)=vote(C)+1;......; 如 果 
使 用 (C,D) 训 练 的 分 类 器 将 * 判定 为 C 类 , 则 vote(C)=vote(C)+1， 否 则 
vote(D)=vote(D)+1。 

最 终 判 决 : Max(vote(A), vote(B), vote(C), vote(D))。 如 有 两 个 以 上 
的 最 大 值 ， 则 一 般 可 简单 地 取 第 一 个 最 大 值 所 对 应 的 类 别 。 

3. 一 对 一 的 淘汰 策略 (one against one with eliminating ) 

这 是 在 文献 [10] 中 专门 针对 SVM 提出 的 一 种 多 类 推广 策略 ， 实 际 
上 它 也 适用 用 所 有 可 以 提供 分 类 器 置信 和 度 信 息 的 二 分 器 。 该 方法 同样 基 
于 1 对 1 判别 策略 解决 多 类 问题 ， 对 于 我 们 的 4 类 问题 ， 须 训练 6 个 分 类 
器 : (A,B)、(A,C)、(A,D)、 (B,C)、 (B,D)、 (C,D), 

显然 ， 对 于 这 4 类 中 的 任意 一 类 ,如 第 A 类 中 的 某 一 样本 ， 束 可 由 
(A,B)、(A,C)、(A,D) 这 3 个 二 分 器 中 的 任意 一 个 来 识别 ， 即 判别 函数 间 
存在 风 余 。 于 是 我 们 将 这 些 二 分 器 根据 其 置信 和 度 从 大 到 小 排序 ， 置 信和 度 
越 大 表示 此 二 分 器 分 类 的 结果 越 可 靠 ， 反 之 则 越 有 可 能 出 现 误 判 。 对 这 
6 个 分 类 器 按 其 置信 和 度 由 大 到 小 排序 并 分 别 编号 ， 假 设 为 1# (A,C)，2# 
(A,B), 3#(A,D), 4# (B,D), 5#(C,D), 6# (B,C)。 

此 时 ， 判 别 过 程 如 下 。 

(1) 设 被 识别 对 象 为 X， 首 先 由 1 # 济 别 函 数 进行 识别 。 知 判别 函 
数 h(x) =+1， 则 结果 为 类 型 A， 所 有 关于 类 型 C 的 判别 函数 均 补 淘汰; 
看 判别 函数 h(x) =-1， 则 结果 为 类 型 C， 所 有 关于 类 型 A 的 判别 函数 均 被 























淘汰 ; 辱 判 别 函 数 h(x) = 0， 为 “拒绝 决策 ”的 情形 ， 则 直接 选用 2# 判 别 
函数 进行 识别 。 假 设 结果 为 类 型 C， 则 所 剩 判 别 函 数 为 4# (B,D) ,5# 
(C,D) 和 6# (B,C)。 

(2) 被 识别 对 象 x 再 由 4# 判 别 函 数 进行 识别 。 知 结果 为 类 型 +1， 淘 
汰 所 有 关于 DD 类 的 判别 函数 ， 则 所 剩 判 别 函 数 为 6#(B,C)。 

(3) 被 识别 对 象 x 再 由 6# 判 别 函 数 进行 识别 。 寿 得 到 结果 为 类 型 
+1， 则 可 判定 最 终 的 分 类 结果 为 B。 

那么 ， 如 何 来 表示 置信 度 呢 ? 对 于 SVM 而 言 ， 分 割 超 平面 的 分 类 间 
隅 越 大 ， 就 说 明 2 类 样本 越 容 易 分 开 ， 表 明了 问题 本 吴 较 好 的 可 分 性 。 
因此 可 以 用 各 个 SVM 二 分 器 的 分 类 间隔 大 小 作为 其 置信 和 度 。 

在 上 述 的 一 对 一 的 淘汰 策略 中 ， 每 经 一 个 判别 函数 就 有 某 一 类 别 被 
排除 ， 与 该 类 别 有 关 的 判别 函数 也 被 淘汰 。 因 此 ， 一 般 经 过 c-1 次 判别 
就 能 得 到 结果 。 然 而 ， 由 于 判别 函数 在 决策 时 有 可 能 会 过 到 “拒绝 决 
策 ” 的 情形 (h(x) = 0) ， 此 时 ， 若 直接 令 h(x) 为 +1 或 -1， 而 把 它 归 于 某 
一 类 ， 就 可 能 导致 误 壮 。 所 以 不 妨 利用 判别 函数 之 间 所 存在 的 元 余 进行 
再 决策 ， 以 减少 这 种 因 “ 拒 绝 决 策 ” 而 导致 的 误 判 ， 一 般 再 经 过 1 或 2 次 决 
策 即 可 得 到 最 终结 果 。 

以 上 3 种 多 类 问题 的 推广 策略 在 实际 应 用 中 一 般 都 能 取得 满意 的 效 
果 ， 相 比 之 下 第 2 种 和 第 3 种 在 很 多 情况 下 能 取得 更 好 的 效果 ， 在 15.4 节 
基于 Matlab 的 人 脸 识 别 系 统 中 我 们 将 使 用 第 2 种 一 对 一 的 投票 策略 解决 
多 类 问题 。 

提示 

由 两 类 向 多 类 的 推广 不 仅仅 是 在 SYM 中 才 会 遇 到 的 问题 。 在 模式 识 
别 和 机 器 学 习 领 域 还 有 很 多 天 然 的 二 分 器 ， 如 线性 感知 器 、Adaboost 
等 。 一 般 来 说 ， 上 面 讨 论 的 3 种 推广 策略 对 于 这 些 二 分 器 同样 适用 。 























15.3 SVM 的 Matlab 实 现 


Matlab 从 7.0 版 本 开始 提供 对 SVM 的 支持 ， 其 SVM 工具 箱 主要 通过 
sSvmtrain 和 svmclassify 两 个 函数 封装 了 SVM 训练 和 分 类 的 相关 功能 。 这 
两 个 函数 十 分 简单 易 用 ， 即 使 对 于 SVM 的 工作 原理 不 是 很 了 解 的 人 也 可 
以 轻松 掌握 。 本 节 将 介绍 SVM 工具 箱 的 用 法 并 给 出 一 个 应 用 实例 。 





15.3.1 训练 一 _svmtrain 


冰 数 svmtrain 用 来 训练 一 个 SYM 分 类 器 ， 常 用 的 调用 语法 为 

SVMStruct = svmtrain(Training, Group) 

参数 说 明 

e Training 是 一 个 包含 训练 数据 的 m 行 n 列 的 二 维和 矩阵 。 每 行 表 示 1 个 
训练 样本 (特征 辣 量 ) ，m 表 示 训 练 样本 数目 ，n 表 示 样 本 的 维 数 。 

e Group 是 一 个 代表 训练 样本 类 标签 的 一 维 回 量 。 其 元 素 值 只 能 为 0 
或 1， 通 种 1 表示 正 例 ， 0 表示 反例 。Group 的 维 数 必 须 和 Training 的 行 数 
相等 ， 以 保证 训练 样本 同 其 类 别 标号 的 一 一 对 应 。 

返回 值 

SVMStruct 是 训练 所 得 的 代表 SVM 分 类 器 的 结构 体 ， 包 含有 关 最 佳 
分 割 超 平面 的 种 种 信息 ， 如 aq、w 和 b 等 ， 此 外 ， 该 结构 体 的 
SupportVector 域 中 还 包含 了 文 持 同 量 的 详细 信息 ， 可 以 使 用 
SVMStruct.SupportVector 获 得 它们 。 而 这 些 都 是 后 续 分 类 所 需要 的 ， 如 
在 基于 1 对 1 的 淘汰 策略 的 多 类 决策 时 为 了 计算 出 置信 和 度 ， 需 要 分 类 间隔 
值 ， 可 以 通过 a 计算 出 w 的 值 ， 从 而 得 到 分 割 超 平面 的 空白 间隔 大 小 














参数 设置 一 些 训练 相关 的 高 级 选项 ， 从 而 实现 某 些 自 定 义 功 能 ， 说 明 如 


lg 

1. 设 定 核 函数 

svmtrain 隙 数 允 许 选 择 非 线 性 映射 时 核 函 数 的 种 类 或 指定 目 己 编写 
的 核 函 数 ， 方 式 如 下 。 

SVMStruct = svmtrain(..., ‘Kernel_Function', Kernel_FunctionValue); 


其 中 ， 参 数 Kernel FunctionValue 的 常用 合法 取 值 如 表 15.1 所 示 。 





表 15.1 参数 Kernel FunctionValue 的 合法 取 值 














合法 取 值 含义 
Tinear 线性 核 函 数 〈 默 认 选 项 ) 
polynomial 多 项 式 核 函数 〈 默 认 阶 数 d=3，d 的 意义 参见 式 (15-30)) 
bE 径 向 基 核 函数 
Function handle 以 符号 “@” 开 头 的 自己 编写 的 核 函 数 的 句柄 








例如 我 们 希望 采用 径 问 基 核 函数 训练 SVM， 可 以 按照 如 下 方式 调 
用 。 


SVMStruct = svmtrain (Training, Group, ‘Kernel_Function', Tbf ') ; 
此 外 ， 还 可 以 设置 与 特定 核 函 数 相关 的 参数 。 如 下 面 的 调用 表示 选 
用 4 阶 (d= 4) 的 多 项 式 核 函数 来 实现 映 冉 ， 训 练 SVM。 
SVMStruct = svmtrain(Training, Group, ‘Kernel_Function’, 
‘polynomial’, 'Polyorder', 4); 
注意 设置 的 核 函 数 参 数 必须 与 选用 的 核 函 数 保持 一 致 。 
目 定 义 核 函数 : 
有 时 我 们 需要 使 用 自己 的 核 函 数 计算 在 映射 空间 中 的 点 积 ， 此 时 可 
以 将 参数 Kernel_FunctionValue 设 置 为 目 己 编写 的 核 孙 数 kfun 的 句柄 ， 
以 @kfun 的 形式 给 出 。 
此 时 的 核 函数 定义 为 
function K = kfun(X, Y) 





其 中 ，X、Y 分 别 为 m 行 和 n 行 的 二 维 矩 阵 ， 它 们 拥有 相同 的 列 数 ] 
， 即 自 定义 核 函数 需要 计算 X 中 的 m 个 ] 维 同 量 与 Y 中 的 n 个 ] 维 向 量 两 两 
之 间 的 核 函 数值 ， 总 共 mxn 个 实数 值 结果 ， 放 在 mm x n 的 二 维和 矩阵 K 中 返 
回 。K(i,j) 就 表示 问 量 X (i, : ) 与 向 量 Y (j, : ) 在 高 维 映射 空间 中 的 
点 积 。 

如 果 要 问 自 定义 核 函 数 中 传递 参数 ， 则 核 函数 应 定义 为 

function K = kfun(X, Y, P1, P2) 

其 中 ，X、Y 含 义 同 上 ， 而 P1、P2 为 核 函数 的 参数 ， 在 调用 时 以 
@(X,Y) kfun(X,Y,P1,P2) 的 形式 给 出 。 例 如 ， 要 上 自 定义 一 个 式 〈15-32 ) 
中 的 Sigmoid 核 函 数 K(x, y)=tanh(b(x:y)-c) ， 首 先 建立 一 个 
kfun_sigmoid.m 文 件 ， 其 中 定义 核 函 数 kfun_sigmoid。 

function K = kfun_sigmoid(X, Y, b, C) 

% sigmoid 核 函数 ，b，c 为 其 参数 

K = tanh(b*(X*Y") c); 

调用 时 格式 为 

SVMStruct= svmtrain( Training, Group, ‘Kernel_ Function', @(X,Y) 
kfun_sigmoid(X,Y,1,0) ); 

2. 训练 结果 的 可 视 化 

当 训 练 数据 是 三 维 时 可 利用 'ShowPlot' 选 项 来 获得 训练 结果 的 可 视 
化 解释 ， 调 用 形式 如 下 。 

svmtrain(..., 'ShowPlot', ShowPlotValue); 

此 时 ， 只 需 设置 ShowPlotValue 的 值 为 1(true) 即 可 。 

3. 设 定 错误 代价 C 

在 15.2.2 小 市 讨论 非 线 性 可 分 情况 下 的 C-SYVM 时 ， 介 绍 了 错误 代价 
系数 C 对 于 训练 和 分 类 结果 的 影响 ， 下 面 将 给 出 设 定 C 值 的 方法 。 由 式 

(15-21) 可 知 ， 引 入 C 对 于 二 次 规划 问题 求解 的 影响 仅仅 体现 在 约束 条 
件 当中 ， 因 此 通过 在 调用 svmtrain 时 设置 一 个 优化 选项 ?boxconstraint' 即 


可 ， 调 用 形式 为 

SVMStruct = svmtrain(...,boxconstraint',C); 

其 中 的 C 即 为 错误 代价 系数 ， 默 认 取 值 为 hf， 表示 错 分 的 代价 无 限 
大 ， 分 割 超 平 面 将 倾 癌 于 尽 可 能 最 小 化 训练 错误 。 通 过 适当 地 设置 一 个 
有 限 的 C 值 ， 将 得 到 一 个 图 15.7(o) 中 所 示 的 软 超 平面 。 


15.3.2 分 类 一 -svmclassify 


函数 svmclassify 利 用 训练 得 到 的 SVMStruct 结 构 对 一 组 样本 进行 分 
类 ， 常 用 调用 形式 为 

Group = svmclassify(SVMStruct, Sample); 

参数 说 明 

e SVMStruct 是 训练 得 到 的 代表 SVM 分 类 器 的 结构 体 ， 由 函数 
svmtrain 返 回 。 

e Sample 是 要 进行 分 类 的 样本 和 矩阵， 每 行为 1 个 样本 特征 向 量 ， 总 
行 数 等 于 样本 数目 ， 总 列 数 是 样本 特征 的 维 数 ， 它 必须 和 训练 该 SVM 时 
使 用 的 样本 特征 维 数 相同 。 

返回 值 

e Group 是 一 个 包含 Sample 中 所 有 样本 分 类 结果 的 列 同 量 ， 其 维 数 
与 Sample 算 阵 的 行 数 相同 。 

当 分 类 数据 是 二 维 时 可 利用 'ShowPlot' 选 项 来 获得 分 类 结果 的 可 视 
化 解释 ， 调 用 形式 如 下 。 

svmclassify(..., 'Showplot', ShowplotValue) 
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15.3.3 应 用 实 僧 


下 面 的 Matlab 实 例 使 用 svmtrain 和 svmclassify 函 数 解 决 了 一 个 二 维 空 
间 中 的 2 类 问题 。 


[ 例 15.2] 二 维 SVM 的 可 视 化 解释 

本 例 使 用 Matlab 自 带 的 高 尾 属 植物 数据 集 来 将 刚刚 学 习 的 SVM 训练 
与 分 类 付 诸 实践 ， 数 据 集 本 号 共 150 个 样本 ， 每 个 样本 为 一 个 4 维 的 特征 
可 量 ， 这 4 维特 征 的 意义 分 别 为 花 为 长 度 、 花 为 宽度 、 划 上 户 长 度 和 要 矿 
宽度 。150 个 样本 分 别 属于 3 类 总 尾 属 植物 《每 类 50 个 样本 ) 。 实 验 中 只 
用 了 前 二 维特 征 ， 这 主要 是 为 了 便于 训练 和 分 类 结果 的 可 视 化 。 为 了 和 暂 
时 避 开 多 类 问题 ， 我 们 将 样本 是 哪 一 类 的 3 类 问题 变 成 了 样本 是 不 
是 ‘setosa’ 类 的 2 类 问题 。 

load fisheriris % 载 入 fisheriris 数 据 集 

data = [meas(:,1), meas(:,2)]; % 取出 所 有 样本 的 前 二 维 作为 特征 

% 转化 为 “是 不 是 setosa 类 ”的 2 类 问题 

groups = ismember(species,'setosa'); 

% 利用 交叉 验证 随机 分 割 数据 集 

[train, test] = crossvalind('holdOut',groups); 

% 训练 一 个 线性 的 支持 向量 机 ， 训 练 好 的 分 类 器 保存 在 svmStruct 

svmStruct = svmtrain(data(train,: ),groups(train),'showplot',true); 

% 利用 包含 训练 所 得 分 类 器 信息 的 svmStruct 对 测试 样本 进行 分 类 ， 
分 类 结果 保存 到 classes 

classes = svmclassify(svmStruct,data(test,:),'showplot',true); 

% 计算 测试 样本 的 识别 率 

ans = nCorrect = sum( classes == groups(test,:) ); % 正确 分 类 的 样本 数 














日 
accuracy = nCorrect / length(classes) % 计算 正确 率 
accuracy = 
0.9867 


上 述 程序 的 运行 结果 如 图 15.10 所 示 。 
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人 脸 识 别 由 于 其 在 公安 部 门 、 安 全 验证 系统 、 信 用 卡 验 证 、 档 案 管 
理 和 人 机 交互 系统 等 方面 的 广阔 应 用 前 景 ， 已 经 成 为 当前 模式 识别 和 人 
工 智能 领域 的 一 个 研究 热点 。 本 节 将 同 您 展现 一 个 极 具 吸引 力 的 综合 案 
例 一 基于 PCA 和 SVM 的 人 脸 识 别 系统 ， 在 一 步 步 深 入 问题 的 同时 也 给 
出 了 使 用 SVM 解 决 问 题 的 一 般 框 架 。 





15.4.1 人 脸 识别 简介 


人 脸 识别 技术 就 是 以 计算 机 为 辅助 手段 ， 从 静态 图 像 或 动态 图 像 中 
识别 人 脸 。 问 题 一 般 可 以 描述 为 给 定 一 个 场景 的 静态 或 视频 图 像 ， 利 用 
己 经 存储 的 人 脸 数 据 库 确认 场景 中 的 一 个 或 多 个 人 。 一 般 来 说 ， 人 脸 识 
别 研究 一 般 分 为 3 个 部 分 :从 上 其 有 复杂 背景 的 场景 中 检测 并 分 离 出 人 脸 
所 在 的 区 域 ， 抽 取 人 脸 识别 特征 ;然后 进行 匹配 和 识别 。 

里 然 人 类 从 复杂 背景 中 识别 出 人 脸 及 表情 相当 容易 ， 但 人 脸 的 自动 
机 需 识 别 却 是 一 个 极 具 挑战 性 的 读 题 。 它 跨越 了 模式 识别 ， 图 像 处 理 、 
计算 机 视觉 以 及 神经 生理 学 、 心 理学 等 诸多 研究 领域 。 

如 同人 的 指纹 一 样 ， 人 上 脸 也 上 共有 唯一 性 ， 可 用 来 鉴别 一 个 人 的 丑 
份 ， 人 脸 识 别 技术 在 商业 、 法 律 和 其 他 领域 有 着 广 泛 的 应 用 。 目 前 ， 人 


























脸 识 别 已 成 为 法 律 部 门 打 击 犯 罪 的 有 力 工具 ， 在 毒品 跟踪 、 反 芍 怖 活动 
等 监控 中 有 着 很 大 的 应 用 价值 ， 此 外 ， 人 腔 识 别 的 商业 应 用 价值 也 正在 
日 葡 增 长 ， 主 要 是 信用 卡 或 者 目 动 取 天 机 的 个 人 号 份 核对 。 与 利用 指 
纹 、 手 掌 、 视 网 膜 、 虹 膜 等 其 他 人 体 生 物 特征 进行 个 人 刁 份 鉴别 的 方法 
相 比 ， 人 脸 识别 具有 直接 、 友 好 、 方 便 的 特点 ， 特 别 是 对 于 个 人 来 说 没 
有 任何 心理 障碍 。 











15.4.2 前 期 处 理 


实验 数据 集 仍 然 采 用 ORL 人 脸 库 [6]。 由 于 每 幅 人 脸 图 像 均 包括 
112x92 个 像素 《参见 12.4.1 小 节 ) ， 巨 大 的 维 数 打 消 了 我 们 将 每 幅 图 像 
直接 以 其 像素 作为 特征 CANN 数 字 字 符 识 别 中 的 做 法 ) 的 念头 。 而 实际 
上 ， 由 于 原始 图 像 各 维 像素 之 间 存 在 着 大 量 的 相关 性 这 种 做 法 也 是 没有 
必要 的 。 因 此 需要 首先 通过 主 成 分 分 析 (PCA) 的 方法 去 除 相 关 性 ， 我 
们 将 在 12.4 节 基于 主 成 分 分 析 (PCA) 的 人 脸 特 征 提 取 工 作 的 基础 上 进 
行 本 实验 ， 将 PCA 降 维 后 得 到 的 20 维 特征 向 量 作为 SVM 分 类 的 特征 。 

前 期 预 处 理工 作 的 具体 步骤 如 下 。 

(1) 数据 集 的 分 割 

将 整个 数据 集 分 为 2 个 部 分 1 个 训练 集 和 1 个 测试 集 。 有 具体 地 
说 ， 我 们 将 每 个 人 的 10 张 面部 图 像 分 成 2 组 ， 前 5 张 放 入 训练 集 ， 另 外 5 
张 用 作 测 试 。 这 样 训 练 集 与 测试 集 各 有 40x5 = 200 个 人 脸 样本 。 

(2) 读 入 训练 图 像 

将 每 张 图 像 按 列 存储 为 1 个 10 304 维 的 行 向 量 。 这 样 400 个 人 共 组 
成 一 个 400x10 304 的 三 维和 矩阵 faceContainer， 每 行 1 个 人 脸 样 本 。 
readFeacs() 函 数 封装 了 上 述 功能 ， 由 于 在 12.4.2 小 节 已 经 介绍 过 该 函数 ， 
这 里 只 给 出 它 的 原型 。 


function 











[imgRow,imgCol,FaceContainer,faceLabel]=ReadFaces(nFacesPerPerson, 
nPerson, 

bTest) 

/ 调用 时 bTest 为 tue (1) 表示 读 入 测试 样本 ; 默认 为 false (0) ， 
读 入 训练 样本 

(3) 利用 PCA 降 维 去 除 像素 之 间 的 相关 性 

从 全 部 的 训练 样本 中 提取 主 成 份 ， 实 验 中 将 主 成 分 的 数目 确定 为 
20， 正 如 12.4.3 小 节 所 做 的 那样 。 通 过 投影 完成 基 的 转换 ， 每 个 10 304 
维 的 人 脸 品 量 被 降 至 20 维 ， 在 后 续 的 计算 中 将 以 此 20 维 的 特征 向 量 来 
代表 该 人 脸 样本 。 这 些 工作 由 我 们 熟悉 的 函数 fastPCAO 完 成 ， 其 详细 
用 法 和 实现 细节 请 参见 12.3.4 小 节 。 











15.4.3 类 见 格 化 


数据 规格 化 (Scaling〉 又 称 数 据 尺 度 归 一 化 ， 就 是 将 特征 的 某 个 属 
性 《特征 向 量 的 某 一 维 ) 的 取 值 范围 投射 到 一 个 特定 范围 之 内 ， 以 消除 
数值 型 属性 因 大 小 范围 不 一 而 影响 基于 距离 的 分 类 方法 结果 的 公正 性 。 

1. 数据 规格 化 的 必要 性 

可 以 训 不 夸张 地 说 Scaling 在 一 个 模式 识别 问题 中 占据 着 举足轻重 的 
地 位 ， 甚 至 关系 到 整个 识别 系统 的 成 败 。 然 而 不 笠 的 是 ， 如 此 重要 的 一 
个 环节 却 往往 易 被 初学 者 忽视 。 当 您 在 同一 个 数据 集 上 应 用 了 相同 的 分 
类 器 却 得 到 远 不 如 他 人 的 结果 时 ， 首 先 请 确定 您 是 否 进行 了 正确 的 
Scaling。 通 常 进行 Scaling 一 般 有 以 下 两 点 必要 性 。 

(1) 防止 那些 处 在 相对 较 大 的 数字 范围 numeric ranges) 的 特 
征 压 倒 那些 处 在 相对 较 小 的 数字 范围 的 特征 。 举 例 来 说 ， 我 们 拿 到 了 
一 份 体检 报告 的 数据 : 其 中 的 一 个 特征 为 刁 高 ， 单 位 为 米 Cm) ， 这 样 
该 特征 的 数字 范围 可 能 束 在 [1.2, 2.5]， 相 对 于 用 公斤 (kg) 作为 单位 的 











体重 特征 [35, 120] 来 说 ， 吴 高 特征 无 疑 是 处 在 一 个 相对 很 小 的 数字 范 
围 。 而 很 多 分 类 器 ， 包 括 SVM， 痢 是 基于 欧 氏 距离 的 ， 这 样 如 果 选 用 这 
二 维特 征 进行 分 类 ， 处 在 小 范围 的 号 高 由 于 对 距离 的 计算 没有 什么 页 
献 ， 分 类 器 将 几乎 只 根据 体重 特征 来 分 类 而 不 考虑 样本 间 吴 高 的 差异 。 

图 15.11 给 出 了 这 种 情况 下 的 样本 二 维 空间 分 布 ， 这 有 助 于 理解 数 
字 范 围 差 寞 是 如 何 影响 距离 计算 ， 进 而 影响 基于 欧 氏 距离 的 分 类 器 的 。 
很 明显 在 图 15.11 (b〉 中 ， 样 本 之 间 几 乎 体现 不 出 身高 差异 ， 假 设 两 个 
人 A、B 分 别 高 1.6m 和 2m， 体 重 相等 ; 妨 外 两 人 C、DD 映 局 相等 ， 体 重 分 
别 为 75kg 和 76kg。 此 时 基于 欧 氏 距离 的 分 类 器 会 认为 A、B 两 人 更 为 相 
似 《 空 间 欧 氏 距 离 为 0.4) ， 而 C、D 两 人 则 差异 较 大 《空间 欧 氏 距离 为 
1) 。 这 显然 与 我 们 常规 的 判断 相反 。 
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(a) 身高 坐标 轴 被 放大 显示 (b) 身高 与 体重 以 相同 的 坐标 尺度 被 显示 





4 图 15.11 20 个 人 的 体检 数据 样本 在 吴 高 -体重 二 维 空间 分 布 ， 为 便于 说 
明 问 题 样本 点 是 等 概率 随机 生成 而 不 像 一 般 真 实数 据 那 样 成 正 态 分 布 


(2) 避免 计算 过 程 中 可 能 会 出 现 的 数字 问题 。 例 如 在 计算 SVM 的 
核 函数 时 通 第 需要 计算 特征 癌 量 的 内 积 〈 线 性 核 函数 以 及 多 项 式 核 函 
数 ) ， 较 大 的 特征 取 值 可 能 造成 最 终 的 内 积 结果 太 大 以 至 于 超出 计算 机 
的 表示 范围 而 溢出 。 针 对 这 种 情况 我 们 建议 线性 地 缩放 各 个 属性 到 统一 


的 范围 [-1，+1] 或 [0，1]。 

还 想 顺 便 提 及 的 一 种 需要 Scaling 解 决 的 数字 问题 是 在 很 多 需要 计算 
复合 概率 情况 下 (马尔 可 夫 模 型 -Marcov Model) ， 此 时 需要 计算 很 多 
值 的 连 乘积 ， 由 于 概率 取 值 都 在 0 一 1 之 间 ， 这 有 很 可 能 造成 连 乘积 大 
小 以 至 高 精度 浮 点 数 都 无 法 表示 而 下 游 出 。 这 就 需要 在 每 步 运 算 之 后 对 
数据 进行 等 比例 的 缩放 ， 使 计算 中 间 结 果 始 终 保持 在 表示 精度 的 范围 以 
内 。 

2. 数据 规格 化 方法 

在 训练 之 前 ， 需 要 对 训练 集中 的 全 体 样 本 进行 规格 化 。 一 般 来 说 ， 
有 以 下 两 种 常见 的 数据 规格 化 策略 。 

(1) 最 大 最 小 规格 化 方法 

该 方法 对 被 初始 数据 进行 一 种 线性 转换 。 设 minA 和 maxA 分 别 为 属 
性 A 的 最 小 和 最 大 值 。 最 大 最 小 规格 化 方法 将 属性 A 的 一 个 值 v 映 射 为 
Vv 且 有 VE[new_minAnew_maxA]。 有 具体 映射 计算 公式 如 下 。 
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例如 ， 属 性 “体重 ”的 最 大 最 小 值 分 别 是 40kg 和 120kg， 利 用 最 大 最 
小 规格 化 方法 将 属性 A 的 值 映 射 到 [-1 菇 的 范围 内 ， 那 么 对 属性 A 的 值 
75kg 将 和 被 转化 为 


+ i 
120—40 


(2) 零 均值 规格 化 方法 

该 方法 是 根据 属性 A 的 均值 和 侦 兰 来 对 A 进 行规 格 化 ， 可 将 训练 集 
中 的 每 个 样本 特征 的 均值 统一 变换 为 0， 并 且 都 具有 统一 的 方 着 《如 
1.0) 。 属 性 A 的 v 值 可 以 通过 以 下 计算 公式 获得 其 映射 值 v’。 





(1—(—1))+(-1) = -0.125 





We (15-34) 
Ol 

式 中 的 pA 和 op 分 别 为 属性 A 的 均值 和 方差 。 

提示 

零 均 值 规格 化 方法 常用 于 属性 A 的 最 大 值 与 最 小 值 未 知 的 情况 。 

当然 ， 在 测试 阶段 我 们 必须 对 测试 样本 应 用 同样 的 Scaling 技 术 。 比 
如 说 采用 最 大 最 小 规格 化 方法 将 训练 数据 某 一 维 从 [-10，+10] 线 性 缩放 
至 [-1，+1]， 那 么 也 要 对 测试 数据 的 该 维 应 用 相同 的 变换 规则 
SR _(_1) 
eC ， 即 如 测试 数据 在 该 维 上 处 在 范围 [-11，8]， 
应 缩放 至 [-1.1，+0.8]。 

3. 实现 人 脸 特 征 数据 的 规格 化 

正 是 基于 前 述 原 因 ， 在 将 降 维 后 的 数据 交 给 SVM 处 理 之 前 ， 首 先 需 
要 进行 Scaling。 这 里 选择 第 一 种 方法 ， 线 性 地 缩放 特征 的 各 个 属性 〈 维 
度 ) 到 [-1，+1]。 

人 脸 特 征 数据 规格 化 的 完整 实现 如 下 ， 它 被 封 北 在 金 羽 图 书 论坛 

(http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖 

子 附件 的 “chapterl5\code\FaceRec” 目 录 下 的 scaling.m 文 件 中 。 

function [SVFM, lowVec, upVec] = scaling(VecFeaMat, bTest, 
lRealBVec, uRealBVec) 

% Input: VecFeaMat --- 需要 scaling 的 m*n 维 数据 矩阵 ， 每 行 一 个 样 
本 特征 向 量 ， 列 数 为 维 数 

% bTest --- =1: 说 明 是 对 于 测试 样本 进行 scaling， 此 时 必须 提 
供 1RealBVec 和 uRealBVec 

% 的 值 ， 此 二 值 应 该 是 在 对 训练 样本 scaling 时 得 到 的 

% =0: 默认 值 ， 对 训练 样本 进行 scaling 























% ]RealBVec --- n 维 同 量 ， 对 训练 样本 scaling 时 得 到 的 各 维 的 


实际 下 限 信 息 lowVec 


% uRealBVec --- n 维 同 量 ， 对 训练 样本 scaling 时 得 到 的 各 维 的 


实际 上 限 信息 upVec 


% 

% output: SVFM --- VecFeaMat 的 scaling 版 本 
% upVec --- 各 维特 征 的 上 限 (只 在 对 训练 样本 scaling 时 有 意 
bTest = 0) 


% lowVec --- 各 维特 征 的 下 限 (只 在 对 训练 样本 scaling 时 有 意 


bTest = 0) 
if nargin < 2 
bTest = 0; 
end 
% 缩放 目标 范围 [-1 1] 
lTargB = -1; 
uTargB = 1; 
[m pn] = size(VecFeaMat); 
SVFM = zeros(m, n); 
if bTest 
if nargin < 4 


error('To do scaling on testset, param lRealB and uRealB are 


needed.'); 


end 
if nargout > 1 
error(When do scaling on testset, only one output is supported.'); 
end 
for iCol = 1:n 


if uRealBVec(iCol) == lIRealBVec(iCol) 
SVFM(:, iCol) = uRealBVec(iCol); 
SVFM(:, iCol) = 0; 
else 
SVEFM(:, iCol) = lTargB + ( VecFeaMat(:, iCol) - lRealBVec(iCol)) 


( uRealBVec(iCol)-lRealBVec(iCol) ) * (uTargB-lTargB); % 测试 数据 
的 scaling 
end 
end 
else 
upVec = zeros(]1, n); 
lowVec = zeros(1, n); 
for iCol = 1:n 
lowVec(iCol) = min( VecFeaMat(:, iCo}l) ); 
upVec(iCol) = max( VecFeaMat(:, iCol) ); 
if upVec(iCol) == lowVec(iCol) 
SVFM(:, iCol) = upVec(iCo)); 
SVFM(:, iCol) = 0; 
else 
SVEFM(:, iCol) = lTargB + ( VecFeaMat(:, iCol) - lowVec(iCol) )/ 
( upVec(iCol)-lowVec(iCol) ) * (uTargB-lTargB); % 训练 数据 的 
scaling 
end 
end 


end 


15.4.4 核 函 数 的 选择 


到 目前 为 止 ， 要 送 入 SVM 的 数据 已 经 准备 就 绪 ， 但 在 “启动 "SVM 
让 它 为 我 们 工作 之 前 仍 有 两 个 问题 摆 在 面前 : GD 选择 哪 一 种 核 函 数 
(Kernel) ; @) 确定 核 函数 的 参数 以 及 错误 代价 系数 C 的 最 佳 取 值 。 下 
面 先 来 解决 第 1 个 问题 ， 第 2 个 问题 留 到 15.4.5 小 节 中 。 

于 只 有 4 种 常用 的 核 函 数 〈 参 见 15.2.3 小 节 ) ， 将 它们 依次 尝试 并 
选择 对 测试 数据 效果 最 好 的 一 个 似乎 也 是 个 行 得 通 的 方法 ， 但 后 续 的 参 
数 选 择 问 题 将 使 这 成 为 一 个 复杂 的 排列 组 合 问题 ， 而 远 远 不 是 4 种 可 能 

么 简单 。 
尽管 最 佳 核 函数 的 选 拌 一 般 与 问题 自身 有 关 ， 但 还 是 有 规律 可 循 
的 。 建 议 初 学 者 在 通常 情况 下 优先 考虑 径 同 基 核 函数 (RBF) 。 














K(x,y)= exp(—7 ||x— yl) 


这 主要 基于 以 下 考虑 。 
e 作为 一 种 对 应 于 非 线性 映射 的 核 函 数 ，RBF 能 够 处 理 非 线性 可 分 


e 线性 核 函 数 是 RBF 核 函数 的 一 种 特殊 情况 ， 即 通过 适当 地 选择 参 
数 (y,C) ，RBF 核 函数 总 可 以 得 到 与 带 有 错误 代价 参数 C 的 线性 核 函数 
相同 的 效果 ， 反 之 当然 不 成 立 。 

e 在 选择 某 些 参数 的 情况 下 ，Sigmoid 核 函数 K(x, y)=tanh(b(x:y)-o 
的 行为 也 类 似 于 RBF 核 函数 ， 而 且 选 择 Sigmoid 核 函数 就 有 2 个 与 之 有 关 
的 参数 bp、c 需 要 确定 。 

e 多 项 式 核 函数 需要 计算 内 积 ， 而 这 有 可 能 产生 溢出 之 类 的 计算 问 








可 


工具 箱 中 的 RBF 核 函数 无 法 灵活 地 选择 参数 ， 为 了 方便 设置 参数 
y， 我 们 编写 了 自己 的 RBF 核 函数 kfun_rbf()， 函 数 的 完整 实现 位 于 金 羽 


图 书 论坛 (http:/bbs.book95.com) 的 “金鸡 图 书 与 答疑 ?板块 与 本 书 同 名 
的 主题 帖子 附件 的 “chapterl5\code\FaceRecKernel” 目 录 下 的 kfun_rbf.m 
文件 中 。 
function K = kfun_rbf(U, V, gamma) 
% rbf 核 函数 
[m1 n1] = size(U); 
[m2 n2] = size(V); 
K = zeros(m1, m2); 
forii= 1:m1 
for jj = 1:m2 
K(ii, jj) = exp( -gamma * norm(U(ii, :)-V(jj, :)) 人 2 ); 
end 


end 
15.4.5 参数 选择 


在 选择 了 RBF 核 的 情况 下 总 共有 2 个 参数 需要 确定 ，RBF 核 自身 的 
参数 y 以 及 错误 代价 系数 C。 这 个 问题 本 身 就 是 一 个 优化 问题 ， 变 量 是 C 
和 Y， 目 标 函 数值 就 是 SVM 对 于 测试 集 的 识别 率 。 困 难 在 于 很 难 用 变量 
C 和 Y 写 出 目标 函数 的 表达 式 ， 因 此 不 适 于 采用 一 般 的 优化 策略 。 幸 好 
在 LibSVM (参见 15.4.2 小 节 ) 中 林 智 仁 (Chih-Jen Lin) 博 士 为 我 们 提供 
了 一 个 非常 实用 的 基于 交叉 验证 和 网 格 搜索 的 参数 选择 方法 ， 并 提供 了 
相应 的 工具 grid.py， 有 具体 可 参见 文献 [13]。 随 后 将 结合 人 脸 识别 的 问题 
给 出 参数 搜索 工具 的 使 用 方法 ， 您 将 学 习 到 如 何在 基于 Matlab 的 SVM 应 
用 中 获得 工具 grid.py 的 有 力 帮 助 。 

1. 数据 集 格 式 化 

要 利用 LibSVM 的 参数 选择 工具 grid.py， 首 先 需要 把 数据 集 格 式 化 














为 grid.py 所 要 求 的 形式 ， 即 为 如 下 格式 的 文本 文件 。 
< 类 标签 > < 特征 索引 1>:< 特 征 值 1> < 特征 索引 2>:< 特 征 值 2> … < 
特征 索引 n>:< 特 征 值 n> 








其 中 ， 每 行 对 应 一 个 样本 实例 。 对 于 分 类 问题 ，< 类 标签 > 是 一 个 表 
示 类 别 标号 的 整数 ， 其 后 的 “< 特征 索引 >:< 特 征 值 > 对 给 出 了 每 一 维 的 
特征 取 值 ，< 特 征 索 引 > 是 一 个 从 1 开始 逐渐 递增 的 整数 ，< 特 征 值 > 是 一 
个 实数 。 

我 们 编写 的 exportO 函 数 用 于 从 Matlab 导 出 LibSVM 能 够 使 用 的 数 
据 ， 它 被 封装 在 金鸡 图 书 论 坛 〈http:Wbbs.book95.com ) 的 “ 金 羽 图 书 与 
答疑 ”板块 与 本 书 同名 的 主题 帖子 附件 
的 “chapterl5\code\FaceRecvexportLibSVM2” 目录 下 的 exportm 文 件 中 。 

function export(strMat, strLibSVMD) 

% 将 以 参数 strMat 指定 的 文件 〈.mat 文 件 ) 中 的 数据 导出 为 能 够 被 
LibSVM 使 用 的 格式 〈:txt 文 件 ) ， 生 成 的 

文件 名 由 参数 strLibSVM 指定 

% 

% 输入 : strMat --- 源 文件 名 (包括 路 径 ) ，'.mat 文 件 ， 默 认 
为 ../MattrainData.mat， 其 中 必须 包含 

训练 数据 








% TrainData 和 类 标签 trainLabel， 该 文件 可 在 训练 SVM 
过 程 中 生成 

% strLibSVM --- 目标 文件 名 (包括 路 径 〉，'.txt 文 件 ， 默 认 
为 'trainData.txt' 


if nargin <1 


strMat = ../MattrainData.mat ; 
strLibSVM = trainData.txt ; 
elseif nargin < 2 
strLibSVM = trainData.txt ; 
end 
[fid, fMsg ] = fopen(strLibSVM, 'w'); % 建立 目标 输出 文件 
if fid == -1 
disp(fMsg ); 
return 
end 
strNewLine = [13 10]; % 换行 
strBlank =""; 
load(strMat) 
[nSamp, nDim| = size( TrainData ); 
for iSamp = 1:nSamp 
fwrite(fid, num2str(trainLabel(i Samp)), 'char'"); 
for iDim = 1:nDim 
fwrite(fid, strBlank, 'char'); 
fwrite(fid, [num2str(iDim) ':"], 'char'); 
fwrite(fid, num2str(TrainData(iSamp, iDim)), 'char'); 
end 
fwrite(fid, strNewLine, 'char'); 
end 
fclose(fid); 
上 述 程序 执行 后 ， 第 2、 第 3 个 人 的 人 脸 样 本 对 应 于 trainData.txt 中 的 
如 下 2 行 。 


eeee 


2 1:0.17762 2:0.054549 3:0.68467 4:-0.032753 5:-0.076314 6:-0.1758 
7:0.37941 8:-0.039629 

9:-0.54754 10:0.091465 11:0.13723 12:0.19647 13:0.36674 14:-0.50934 
15:0.7817 16:-0.22577 

17:0.070353 18:0.10225 19:-0.26392 20:0.01075 

3 1:-0.10874 2:-0.239 3:-0.16797 4:-0.26408 5:0.53417 6:0.48635 
7:-0.11967 8:-0.051977 

9:-0.030884 10:-0.60206 11:-0.27395 12:-0.36117 13:0.23001 
14:0.082984 15:0.13227 

16:0.090856 17:-0.25932 18:0.094344 19:-0.59063 20:0.90311 

2. 搜索 参数 

参数 搜索 工具 grid.py 是 python 的 脚本 文件 ， 所 以 首先 系统 必须 安装 
python。 此 外 搜索 过 程 中 还 要 用 到 工具 gnuplot.exe 以 便 将 搜索 过 程 可 视 
化 。 关 于 python 和 gnuplot 您 都 可 以 在 互联 网 上 找到 。 

在 开始 逐 单 运行 命令 窗口 中 输入 cmd 命 令 ， 打 开 命 令 提 示 符 后 ， 转 
移 至 grid.py 所 在 的 目录 ， 在 命令 行 中 输入 命令 "grid.py trainData.txt”， 如 
图 15.12 所 示 。 





co C:\WFINDOYS\systen32\cnd. exe 


F:\LihbSUM>grid.py trainData.txt 





A 图 15.12 运行 grid.py 


如 果 命 令 运 行 中 出 现 问 题 ， 很 可 能 是 grid.py 中 的 路 径 设 置 需要 修 
正 ， 以 便 grid.py 可 以 找到 svmtrain.exe 和 pgnuplot.exe 的 位 置 。 图 15.13 给 
出 了 路 径 设 置 的 方法 : 打开 grid.py 文 件 ， 修 改 字母 “后 面 引 号 中 的 路 径 
到 svmtrain.exe 和 pgnuplot.exe 所 在 的 路 径 即 可 。 图 中 的 路 径 设 置 对 应 于 
svmtrain.exe 和 pgnuplot.exe 与 grid.py 处 在 相同 目录 下 的 情况 。 


#1!/usr/bhin/env python 尖 


Os, SYS, traceback 


Queue 
detpass 
threading Thread 3 
string Eline SLL -on 
suwbprocess 
# svmtrain and gnuplot executable 
is win32 = lsys.platform == 'Wwin32') 
is Win32: 


svmtrain exe = " 
gnuplot exe = " birt 


# exaumple for windows 
svmtrain exe = r"svmtrain.exe" 





gnuplot exe = r"pgnuplot.exe 


# global parameters and their default values 


A 图 15.13 grid.py 中 的 路 径 设置 


回 车 后 开始 自动 参数 搜索 ， 搜 索 结 果 如 图 15.14 倒 数 第 2 行 所 示 ， 得 
到 最 佳 的 C 值 为 128， 最 佳 Y《〈 图 中 为 g) 为 0.007 812 5， 训 练 集 上 交叉 验 
证 的 识别 率 为 97.5%。 


co C:\WINDOYS\systen32\cnd. exe 


-1 -3 39391.60 《best c=128.0, g=0.0078125, rate=97.5> 
11 -3 ?97.0 ‘best c=128.0,. g=0.0078125. rate=927?7.5> 
-3 -3 91.8 ‘<best c=128.0。9=D.0978125 。 rate=97?7.5> 
9 -3 97.0 《best c=128.0。9=D.0978125 。 Fate=97.5?) 

3 -3 97.8 《best c=l28.090。9=0.0978125 。 rate=97.5> 
15 -3 97.09 《hbest c=128.0,. g=8.0078125,. rate=97?7.5> 
-5 -3 91.8 《best c=128.0,. g=08.0078125,. rate=97.5> 
?了 -3 0 1 4 PE 1 pd dD 

1 -3 96.8 《best c=128.80. g=8.0878125, rate=97.5> 
13 -7? 97.5 《hbest c=128.8,. g=8.80078125, rate=97.5> 
13 -1 96.5 《hbest c=128.80,. g=8.80078125,. rate=97?7.5> 
13 -13 97.5 best c=128.09。9=D.0978125 。 rate=97.5> 
13 1 81.5 best c=128.8,. g=8.8078125,. rate=97?7.5> 
13 -1L 97-.5 《best i pd PE a A dD 
13 -5 97.5 《best c=128.0,. g=0.0078125, rate=97?7.5> 
13 -15 95 .0 best c=l28.090。9=0.0978125 。 rate=97?7.5> 
13 3 57.8 best c=128.8,. g=8.0078125,. rate=97?7.5> 
13 -9 97.5 《best c=128.80. g=8.0078125,. rate=97?7.5> 
13 -3 97.0 《hbest c=l28.090。9=D.0978125 dD 
-9978125 97.5 


F:\LibSsUM> 





A 图 15.14 grid.py 中 的 路 径 设置 
15.4.6 构建 多 类 SVM 分 类 器 


15.2.4 小 节 已 经 介绍 了 如 何 应 用 1 对 1 的 投票 策略 将 SVM 推广 至 多 类 
问题 ， 下 面 给 出 该 方法 的 实现 细节 。 我 们 编写 了 函数 multiSYMTrain() 和 
multiSYMClassify() 作 为 标准 SVM 工 具 箱 的 扩展 ， 从 而 得 到 可 以 解决 多 
类 问题 的 SVML。 

1. 多 类 问题 的 训练 

在 多 类 SVM 训练 阶段 ， 我 们 要 做 的 就 是 用 n=40 类 样本 构建 n(n - 
TD)/2 个 SVM 二 分 器 ， 把 每 个 SVM 二 分 器 的 训练 结果 〈SVMStruct 结 构 
体 ) 都 保存 到 一 个 结构 体 的 细胞 数组 CASVMStruct 中 ， 有 具体 地 说 
CASVMStruct{ 坟 }{jj} 中 保存 着 第 类 与 第 jj 类 两 类 训练 得 到 的 
SVMStruct。 最 终 将 多 类 SVM 分 类 时 需要 的 全 部 信息 保存 至 结构 体 
multiSVMStruct 中 返回 ， 可 以 说 multiSVMStruct 中 包含 了 我 们 的 训练 成 
果 。 

multi SVMTrain() 的 完整 实现 如 下 ， 它 被 封装 在 金 羽 图 书 论坛 

(http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖 
子 附件 的 “chapter15\code\FaceRewCSVM2” 目 录 下 的 multiSVMTrain.m 文 件 
中 。 


function multiSVMStruct = multiSVMTrain(TrainData, nSampPerClass, 








nClass, C, gamma) 

% 采用 1 对 1 投票 策略 将 SVM 推广 至 多 类 问题 的 训练 过 程 ， 将 多 类 
SVM 训练 结果 保存 至 multiSVMStruct 中 

% 

% 输入 :--TrainData: 每 行 是 一 个 样本 人 上 脸 

% ”--nClass: 人 数 ， 即 类 别 数 





% ” --nSampPerClass:nClass*1 维 的 同 量 ， 记 录 每 类 的 样本 数目 ， 
如 nSampPerClass(iClass) 
% 给 出 了 第 iClass 类 的 样本 数目 
% --C: 错 误 代 价 系数 ， 默 认为 Inf 
% --gamma: 径 问 基 核 函数 的 参数 gamma， 默 认 值 为 1 
% 
% 输出 :--multiSVMStruct: 一 个 包含 多 类 SVM 训练 结果 的 结构 体 
% 默认 参数 
if nargin <4 
C = Inf; 
gamma=1; 


elseif nargin <5 


gamma=1; 
end 
% 开 始 训 练 ， 需 要 计算 每 两 类 则 的 分 类 超 平面 ， 共 (nClass- 
1)*nGClass/2 个 


for ii=1:(nClass-1) 
for jj=(ii+1):nClass 

clear 又 ; 
Clear Y; 
startPosII = Sum( nSampPerClass(1:ii-1) ) + 1; 
endPosII = startPosII + nSampPerClass(ii) - 1; 
X(1:nSampPerClass(ii), :) = IrainData(startPosII:endPosIL，:); 
StartPosJJ = sum( nSampPerClass(1:jj-1) ) + 1; 
endPosJJ = startPosJJ + nSampPerClass(jj) - 1; 
X(nSampPerClass(ii)+1:nSampPerClass(ii)+nSampPerClass(j)j), :) = 


TrainData(start 


PosJJ:endPosJJ，:); 
% 设 定 两 两 分 类 时 的 类 标签 
Y = ones(nSampPerClass(ii) + nSampPerClass(jj),，1); 
Y(nSampPerClass(ii)+1:nSampPerClass(ii)+nSampPerClass(jj)) = 0; 
% 第 ii 个 人 和 第 jj 个 人 两 两 分 类 时 的 分 类 器 结构 信息 
CASVMStruct{ii}{jj}= svmtrain( X, Y, 上 ermel_Function, @(X,Y) 
kfun_rbf(X,Y,gamma), 
boxconstraint', C ); 
end 
end 
% 已 学 得 的 分 类 结 采 
multiSVMStruct.nClass = nClass; 
multiSVMStruct.CASVMStruct = CASVMStruct; 
% 保存 参数 
save('Mat/params.mat', 'C', 'gamma'); 
2. 多 类 问题 的 分 类 
在 多 类 SVM 分 类 阶段 ， 让 测试 样本 依次 经 过 训练 得 到 的 n(n -1)/2 个 
(n= 40) 个 SVM 二 分 器 ， 通 过 投票 决定 其 最 终 类 别 归属 。 
multiSYMClassify() 的 实现 如 下 ， 它 被 封装 在 金 羽 图 书 论坛 
(http://bbs.book95.com) 的 “ 金 羽 图 书 与 答疑 ?板块 与 本 书 同名 的 主题 帖 
子 附件 的 “chapter15\code\FaceRecSVM2” 目 录 下 的 multiSVMC]lassify.m 文 
中 
function class = multi SVMClassify(TestFace, multiSVMStruct) 
% 采用 1 对 1 投票 策略 将 SVM 推广 至 多 类 问题 的 分 类 过 程 
% 输入 :--TestFace: 测 试 样本 集 。m*n 的 2 维和 矩阵 ， 每 行 一 个 测试 样 





% --multiSVMStruct: 多 类 SVM 的 训练 结果 ， 由 函数 


multiSYMTrain 返回 ， 默 认 是 从 
Mat/multiSVMTrain.mat 文 件 中 读 取 
% 
% 输出 :--class: m*1 列 向 量 ， 对 应 TestFace 的 类 标签 
9% 读 入 训练 结 
if nargin < 2 


t= dir(Mat/multiSVMTrain.mat'); 











if length(t) == 
error(' 没 有 找到 训练 结果 文件 ， 请 在 分 类 以 前 首先 进行 训练 ! ); 
end 
load(‘Mat/multiSVMTrain.mat'); 
end 


nClass = multi SYMStruct.nClass; % 读 入 类 别 数 
CASVMStruct = multiSVMStruct.CASVMStruct; % 读 入 两 两 类 之 间 
的 分 类 器 信息 
%%%%%%%%%%%%% 投 票 策略 解决 多 类 问题 
9209690909090969090960909690909090 
m = size(TestFace, 1); 
Voting = zeros(m, nClass); % m 个 测试 样本 ， 每 个 样本 nPerson 个 类 
别 的 投票 箱 
for iIndex = 1:nClass-1 
for jIndex = iIndex+1:nClass 
classes = svmclassify(CASVMStruct{iIndex}{jIndex}, TestFace); 
% 投票 
Voting(:, iIndex) = Voting(:, iIndex) + (classes == 1); 
Voting(:, jIndex) = Voting(:, jIndex) + (classes == 0); 
end % for jClass 


end % for iClass 

% final decision by voting result 

[vecMaxVal, class] = max( Voting ,[ ], 2 ); 
%display(sprintf('TestFace 对 应 的 类 别 是 :%d',class)); 


15.4.7 实验 结果 


终于 一 切 就 绪 了 ! 相信 您 已 经 过 不 及 待 地 想 看 到 分 类 器 对 于 每 个 人 
的 后 5 张 图 片 的 识别 效果 了 。 我 们 将 有 关 这 个 人 脸 识 别 系统 实现 的 所 有 
文件 都 存放 在 金 羽 图 书 论坛 (http://bbs.book95.com) 的 “ 金 羽 图 书 与 答 
疑 ” 板 块 与 本 书 同名 的 主题 帖子 附件 的 “chapter15\code\FaceRec” 目 录 中 ， 
作为 一 个 完整 的 工程 。 图 15.15 给 出 了 工程 的 目录 清单 。 


















| Ml Files File Type < Size Last Modifi 
ID Data Folder 2008-8-7 11: 


ID) exportLibSw Folder 2008-8-3 20: 
ID Kernel Folder 2008-7-28 20 
ID Mat Folder 2008-8-6 20: 
器 PCA Folder 2008-8-6 13: 
I SYM Folder 2008-8-6 14: 
慑 1 classify.m hl-file 1 KB 2008-8-6 14: 
EIFR GULm| Nt-file 2 KB 2008-8-7 11: 
国 GulDOpenFacelmage.m ht-file 1 KB 2007-10-306 
国 GUIRecgFacelmage.m ht-file 1 KB 2007-10-306 
国 ReadaAFace.m hi-file 1 KB 2008-7-28 17 
国 ReadFaces.m Ni-file 2 KB 2008-8-6 13: 
国 scaling.m Mt-file 2 KB 2008-7-30 15 
国 test.m hi-file 2 KB 2008-8-6 14: 
国 train.m hi-file 2 KB 2008-8-6 20: 


< > 





A 图 15.15 FaceRec 工 程 一 览 





根 目录 下 主要 是 一 些 驱 动 文 件 ， 它 们 的 作用 是 调用 封装 好 的 功能 函 
数 以 完成 系统 某 一 部 分 的 特定 功能 。 有 些 函 数 像 ReadFaces.m 以 及 
scaling.m 之 前 已 经 介绍 过 了 ， 其 余 的 将 在 剩 下 的 讨论 中 给 予 说 明 。 各 个 


目录 的 内 容 如 下 。 

e Data/: 存放 着 ORL 人 脸 库 图 像 文 件 (.pgm) 。 

e exportLibSVM/: 包含 文件 export.m， 并 存放 导出 的 LibSYM 格 式 
He 

e Kernel/: 存放 我 们 自 定义 的 核 函 数 ， 现 有 两 个 文件 kfun_rbfm 和 
kfun_sigmoid.m 。 

e Mat/: 存放 所 有 的 .mat 数 据 文件 。 

e PCA/: fastPCA.m 和 和 visualize_pc.m， 这 是 我 们 在 第 12 章 中 建立 的 
PCA 工 具 箱 。 

e SVM/: 多 类 SVM 工具 箱 ， 包 括 multiSVMTrain.m 和 
multi SYMClassify.m 两 个 文件 。 

我 们 编写 了 图 形 界 面 程序 FR_GUI 以 方便 您 驱动 整个 实验 ， 实 现 如 





下 
% FR_GUI.m 
global h_axes]; 
global h_axes2; 
h_ f= figure(name', ' 基 于 PCA 和 SVM 的 人 脸 识 别 系 统 "); 
h_textC = uicontrol(h_f, 'style', ‘text', 'unit', normalized', 'string', 'C=,, 
'position,,... 
[0.05 0.7 0.1 0.06]); 
h_editC = uicontrol(h_f, 'style', edit， "unit', normalized', 'position', [0.05 
0.6 0.1 
0.06],... 
'callback', 'C = str2num(get(h_editC, "string"))'); 
h_textGamma = uicontrol(h_f, 'style', text，unit, normalized', 'string,, 
gamma=， 


了 Position ,… 


[0.05 0.5 0.1 0.06]); 
h_editGamma = uicontrol(h_f, 'style', 'edit "unit', mormalized '， 
Position , [0.05 0.4 
0.1 0.06],... 
callback'，gamma = str2num(get(h_editGamma, "String”))); 
% 取得 参数 C 和 gamma 的 当前 值 ， 即 最 近 一 次 训练 所 使 用 的 值 
t= dir(Mat/params.mat'); 


if length(t) == 
% 没有 找到 参数 文件 
C = Inf; 
gamma=1 

else 


load Mat/params.mat; 
end 
set(h_editC, 'string', num2str(C)); 
set(h_editGamma, 'string', num2str(gamma)); 
h_axesl = axes(parent, h_f, 'position', [0.25 0.23 0.32 0.6], visible 
'off'); 
h_axes2 = axes(parent, h_f, 'position', [0.62 0.23 0.32 0.6], 'visible, 
'off'); 
h_btnOpen = uicontrol(h_f, 'style', ‘push', 'string', ' 打 开 , "unit， 
normalized',... 
了 position, [0.32 0.1 0.18 0.1], 'callback', 'GUIOpenFaceImage'); 
h_btnRecg = uicontrol(h_f 'style, push'，'string'， 识 别 ， "unit', 
normalized',... 
'position', [0.67 0.1 0.18 0.1], 'callback', 'GUIRecgFaceImage'); 
h_btnRecg = uicontrol(h_f, 'style', ‘push', 'string', "训练 ', "unit， 


mormalized',.…. 
Position , [0.32 0.83 0.18 0.1], 'callback', 'train(C, gamma)'); 
h_btnRecg = uicontrol(h_f, 'style', 'push','string'， 测 试 ， "unit, 
mormalized',.…. 
Position , [0.67 0.83 0.18 0.1]，callback'，test); 
在 Matlab 命 令 窗口 中 输入 以 下 命令 。 
9% 将 工程 所 在 文件 夹 FaceRec 添 加 到 系统 路 径 列 表 
>> addpath(genpath('F:\doctor research\Matlab Work\FaceRec')) 
>> FR_GUI 
上 述 命令 运行 后 将 启动 了 如 图 15.16 所 示 GUI 识 别 程序 。 


Figure 1: 其 于 PC& 和 SFE 的 人 脸 识 别 系统 
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A 图 15.16 识别 程序 主 界面 


1. 训练 

在 程序 主 界面 左 侧 的 编辑 框 可 以 设置 参数 C 和 Y《〈 图 中 的 gamma) ， 
由 于 在 开始 时 还 没有 进行 训练 ，C 和 gamma 分 别 取 其 默认 值 Inf 和 1， 以 
后 编辑 框 中 总 是 显示 最 近 一 次 训练 时 所 采用 的 C 和 gamma 值 。 

单 击 “训练 ”按钮 会 调用 函数 train(C, gamma)， 其 中 包括 了 读 入 人 脸 
数据 、PCA 降 维 、 数 据 规格 化 以 及 训练 多 类 SVM 等 功能 。 

train0 函 数 的 完整 实现 如 下 ， 它 位 于 工程 目录 下 的 train.m 文 件 中 。 

function train(C, gamma) 

% 整个 训练 过 程 ， 包 括 读 入 图 像 ，PCA 降 维 以 及 多 类 SVM 训练 ， 
各 个 阶段 的 处 理 结果 分 别 保存 全 文件 : 

% 将 PCA 变换 矩阵 W 保存 至 Mat/PCA.mat 
6 将 scaling 的 各 维 上 、 下 界 信息 保存 全 Mat/scaling.mat 
6 将 PCA 降 维 并 且 scaling 后 的 数据 保存 至 Mat/trainData.mat 
6 将 多 类 SVM 的 训练 信息 保存 至 Mat/multiSYMTrain.mat 
global imgRow; 














头头 立 


global imgCol; 

display( 7) 

display( ); 

display(' 训 练 开 始 ..."); 

nPerson=40; 

nFacesPerPerson = 5; 

display( 读 入 人 脸 数 据 ..."); 
[imgRow,imgCol,FaceContainer,faceLabel]=ReadFaces(nFacesPerPerso 


save('Mat/FaceMat.mat', 'FaceContainer') 


dsplay( ri '); 


nFaces=size(FaceContainer,1);% 样 本 (人 脸 〉 数目 

display(PCA 降 维 ..."); 

[pcaFaces, W] = fastPCA(FaceContainer, 20); % 主 成 分 分 析 PCA 

% pcaFaces 是 200*20 的 矩阵 , 每 一 行 代表 一 张 主 成 分 脸 ( 共 40 人 ， 
人 5 张 )， 每 个 脸 20 个 维特 征 

% W 是 分 离 变换 矩阵 , 10304*20 的 矩阵 

visualize_pc(W);% 显 示 主 成 分 脸 

display( '); 

X = pcaFaces; 





display('Scaling..."); 

[X,A0,B0] = scaling(X); 

save('Mat/scaling.mat', 'A0', 'BO'); 

% 保存 scaling 后 的 训练 数据 至 trainData.mat 

TrainData = X; 

trainLabel = faceLabel; 

save('Mat/trainData.mat', "TrainData', 'trainLabel'); 

dsplay Cari 由 

for iPerson = 1:nPerson 

nSplPerClass(iPerson) = sum( (trainLabel == iPerson) ); 

end 

multiSVMStruct = multiSVMTrain(IrainData, nSplPerClass, nPerson, 
C, gamma); 

display(' 正 在 保存 训练 结果 .…"); 

save(MatmultiSVMTrain.mat，multi9VMStruct ); 

dsplay (Ce 办 

display(' 训 练 结束 。"); 

训练 结束 后 ， 训 练 结果 和 参数 等 相关 信息 都 会 自动 记 入 “Mat”* 文 件 








夹 下 的 相关 .mat 数 据 文 件 ， 以 备 测试 和 分 类 使 用 。 

2. 识别 

识别 是 指 对 某 人 的 喘 份 进行 识别 ， 即 分 类 一 个 特定 样本 。 

首先 在 图 15.16 所 示 的 程序 主 界 面 中 单 击 “ 打 开 ” 按 钮 ， 触 友 
GUIOpenFaceImage 过 程 ， 在 弹出 的 “打开 文件 对 话 框 ? 中 选 定 待 识别 者 
的 图 像 后 (这 里 是 第 18 个 人 的 第 8 幅 图 像 )》， 打 开 的 图 像 如 图 15.17 所 
示 








单 击 “ 识 别 ” 按 钮 ， 此 时 会 调用 过 程 GUIRecgFaceImage， 进 而 调用 函 
数 classifyO0。 识 别 结果 如 图 15.18 所 示 ， 右 侧 显 示 的 为 识别 出 的 人 的 第 1 
幅 图 像 ， 可 见 系 统 正确 识别 出 此 人 的 身份 。 


:Figure 1: 其 于 PCA 和 SYE 的 人 脸 衣 别 系统 
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A 图 15.17 打 开 待 识别 者 面部 图 像 


J Figure 1: 其 于 PCA 和 SY 的 人 脸 识 别 系统 
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生 图 15.18 通 过 面部 信息 进行 身份 识别 


识别 中 涉及 的 过 程 和 函数 如 下 。 
(1) GUIOpenFaceImage 过 程 
2% GUIOpenFacelmage.m 
global filepath; 
[filename, pathname| = uigetfile({*.pgm;*.jpg;*tif', ' (*.pgm), (*.jpg), 
(*.tif)'; ... 
*.*! 'All Files(*.*) } 'Select a face image to be recognized'); 


if filename ~ =0 


filepath = [pathname,filenamej]; 
axes(h_axes1); 
imshow(imread(filepath)); 
end 
(2) GUIOpenRecgImage 过 程 
% GUIRecgFacelmage.m 
nClass = classify(filepath); 
msgbox( [所 属 类 别 为 :,num2str(nClass)] ); 
axes(h_axes2); 
f = imread(['Data/ORL/S',num2str(nClass),/1.pgm']); % 打开 该 人 的 第 
1 幅 图 像 
imshow!(f); 
(3) classify( ) 函 数 
% classify.m 
function nClass = classify(newFacePath) 
% 整个 分 类 《识别 ) 过 程 
% 输入 : --newFacePath: 待 识别 图 像 的 存 取 路 径 
% 输出 : --nClass: 识别 出 的 类 别 标号 
display( ); 
display( 7); 
display( 识 别 开 始 ..."); 
% 读 入 相关 训练 结 
display(' 载 入 训练 参数 .…); 
load(Mat/PCA .mat'); 
load(Mat/scaling.mat ); 
load('Mat/trainData.mat'); 
load(MatmultiSVMTrain.mat ); 


tsplay (ei 内 

xNewFace = ReadAFace(newFacePath); % 读 入 一 个 测试 样本 

XNewFace = double(XNewFace); 

XNewFace = XNewFace*W; % 经 过 pca 变 换 降 维 

XNewFace = Scaling(XNewFace,1,A0,B0); 

display(' 里 份 识 别 中 ..."); 

nClass = multiSVMClassify(xNewFace); 

display( '); 

display([" 坊 份 识 别 结 束 ， 类 别 为 : ' num2str(nClass), '。]); 

3. 测试 

测试 是 指 分 类 所 有 的 测试 样本 40 个 人 的 后 5 张 图 像 ， 共 200 个 样 
本 ) ， 并 计算 识别 率 。 在 图 15.16 所 示 的 程序 主 界面 中 单 击 “ 测 试 " 按 钮 ， 
将 触发 test() 函 数 ， 运 行情 况 如 图 15.19 所 示 。 
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A 图 15.19 测试 结果 


结果 显示 对 于 测试 集合 的 200 个 全 新 样本 ，SVM 取 得 了 81.5% 的 识 
别 正确 率 。 考 虑 到 数据 集中 的 前 、 后 5 张 图 片 之 间 存 在 一 定 的 姿态 、 表 
情 等 因素 的 差异 ， 这 样 的 识别 率 是 完全 可 以 接受 的 。 要 进一步 提高 识别 
率 ， 可 以 从 两 个 方面 着 手 : 一 是 选取 更 具 区 分 能 力 (most 
discriminative 〉 的 特征 ， 二 是 改善 分 类 器 本 身 的 性 能 。 

由 于 在 上 述 训 练 过 程 中 使 用 了 默认 的 参数 C 和 gamma， 首 先 想 到 采 
用 15.4.3 小 节 中 得 到 的 最 优 参数 重新 训练 ， 以 改进 我 们 的 多 类 SVM 分 类 
器 。 设 置 C 为 128，gamma 为 0.007 812 5， 如 图 15.20 所 示 。 





Figure 1: 共 于 PCA 和 5SWE 的 人 脸 识 别 系统 
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A 图 15.20 重新 训练 (C = 128，gamma = 0.007 812 5) 


单 击 “训练 按钮， 重新 训练 分 类 器 ， 结 果 如 图 15.21 所 示 。 
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4 图 15.21 采用 优化 参数 训练 后 的 测试 结果 (85%) (C= 128，gamma 
= 0.007 812 5) 


我 们 看 到 ， 此 时 的 识别 率 为 85%， 高 于 此 前 的 81.5%， 这 样 就 从 实 
验 角度 证 明了 参数 优化 对 提高 分 类 器 推广 能 力 的 作用 。 

通过 选取 更 具 区 分 能 力 的 特征 来 提高 识别 率 是 一 个 更 为 复杂 的 话 
题 ， 第 12 章 中 我 们 兽 多 次 强调 过 所 选择 的 特征 对 于 分 类 的 诀 定 作用 。 就 
本 节 的 人 脸 识 别 系统 而 言 ， 可 以 在 PCA 处 理 时 尝试 不 同 的 维 数 ， 观 察 特 
征 维 数 对 于 识别 率 的 影响 ， 当 然 也 会 存在 一 个 所 谓 的 最 佳 维 数 。 此 外 ， 
在 12.5 节 中 介绍 LBP 特 征 时 兽 指 出 了 LBP 特 征用 于 人 脸 识别 问题 的 优越 
性 ， 现 在 可 以 从 实验 的 角度 来 考察 其 效果 。 这 些 任 务 就 留 给 有 兴趣 的 读 
着 5 

















测试 中 涉及 的 test0 函 数 的 实现 如 下 ， 它 位 于 工程 目录 下 的 test.m 文 
件 中 。 

function test() 

% 测试 对 于 整个 测试 集 的 识别 率 

% 

% 输出 : accuracy --- 对 于 测试 集合 的 识别 率 

display( 7); 

display( '); 

display( 测 试 开始 .…); 

nFacesPerPerson = 5; 

nPerson = 40; 

bTest=1; 

% 读 入 测试 集合 

display( 读 入 测试 集合 .."); 

[imgRow,imgCol,TestFace,testLabel] = ReadFaces(nFacesPerPerson, 
nPerson, bTest); 

splay (em '); 

% 读 入 相关 训练 结 

display(' 载 入 训练 参数 .."); 

load(Mat/PCA .mat'); 

load('Mat/scaling.mat'); 

load('Mat/trainData.mat'); 

load(MatmultiSVMTIrain.mat ); 

display( '); 

% PCA 降 维 

display(PCA 降 维 处 理 ...'); 


[mpn] = size(TestFace); 


TestFace = (TestFace-repmat(meanVec, m, 1))*V; 9% 经 过 pca 变 换 降 维 
TestFace = scaling(TestFace,1,A0,BO); 

display( 

9% 多 类 SVM 分 类 

display( 测 试 集 识 别 中 ..."); 

classes = multiSVMC]lassify(TestFace); 

display( ); 

% 计算 识别 率 

nError = sum(classes 人 一 = testLabel); 

accuracy = 1 - nError/length(testLabel); 
display([' 对 于 测试 集 200 个 人 脸 样本 的 识别 率 为 ，， 


num2str(accuracy*100)，920]); 


15.5 SVM 在 线 资 源 











作为 本 章 的 最 后 一 太 ， 下 面 介绍 两 个 非常 优秀 的 SVM 在 线 资源 供 读 
者 学 习 和 研究 ， 在 今后 的 工程 实践 中 也 可 以 十 分 方便 地 使 用 它们 。 


15.5.1 Matlab 的 SVM 工具 箱 





互联 网 上 可 以 搜索 到 很 多 优秀 Matlab 的 SVM 工具 箱 ， 笔 者 为 您 推 
荐 一 个 由 Steve Gunn (Srg@Decs.soton.ac.ug) 编 写 的 SVM 工具 箱 ， 它 实现 
的 功能 相对 集中 (支持 分 类 和 回归 〉 ， 代 人 码 简洁 明了 ， 给 出 了 之 前 介绍 
的 C-SVM 的 标准 实现 ， 二 次 规划 由 一 个 库 qp.dll 完 成 ， 非 党 适合 于 初学 
者 理解 和 掌握 ， 同 时 它 还 文 持 多 种 核 函 数 。 通 过 对 错误 代价 系数 C 进行 
设置 您 还 可 在 最 大 分 类 间隔 与 最 小 化 训练 错误 代价 之 间 做 出 权衡 。 


VY 
注 轧 








通过 Matlab 编 写 的 SVM 程序 训练 一 个 大 样本 集合 可 能 导致 函数 运行 
缓慢 并 需要 大 量 的 内 存 。 如 果 在 此 过 程 中 提示 内 存 不 足 或 者 优化 过 程 需 
要 太 多 的 时 间 ， 请 尝试 分 割 为 小 一 些 的 样本 集合 并 使 用 交叉 验证 的 方法 
来 测试 分 类 器 性 能 








15.5.2LIBSVIM 的 简介 


LIBSVM 是 台湾 大 学 林 智 仁 (Chih-Jen Lin) 博 士 等 开发 设计 的 一 个 操 
作 人 简单 、 易 于 使 用 、 快 速 有 效 的 通用 SVM 软件 包 ， 可 以 解决 多 种 SVM 
的 相关 分 类 ， 妆 然 其 中 也 包括 我 们 之 前 讨论 的 C-SYM。 它 提供 了 线性 、 
多 项 式 、 径 同 基 和 sigmoid 4 种 党 用 的 核 函 数 供 选择 ， 采 用 基于 一 对 一 
的 投票 策略 解决 多 类 问题 ， 此 外 还 提供 了 通过 交叉 验证 自动 选择 最 佳 参 
数 的 实用 功能 (15.4.5 小 节 〉 以 及 对 不 平衡 样本 加 权 和 多 类 问题 的 概率 
信 讨 3s 

LIBSVM 是 一 个 开源 的 软件 包 ， 需 要 者 都 可 以 免费 的 从 作者 的 个 人 
主页 http:/www.csie. ntu.edu.tw/~cjlin/ 处 获得 。 它 不 仅 提 供 了 LIBSVM 
的 C++ 语言 的 算法 源 代 码 ， 还 提供 了 Python 、Java、R、Matlab、Perl、 
Ruby、LabVIEW 以 及 C#.net 等 各 种 语言 的 接口 ， 可 以 方便 地 在 
Windows 或 UNIX 平台 下 使 用 。 此 外 ， 软 件 包 中 还 提供 了 Windows 平台 
下 的 可 视 化 操作 工具 SVM-toy， 在 进行 模型 参数 选择 时 可 以 绘制 出 交叉 
验证 精度 的 等 高 线 图 。 

LIBSVM 有 是 以 源 代码 和 可 执行 文件 两 种 方式 给 出 的 。 如 果 是 
Windows 系 列 操作 系统 ， 可 以 直接 使 用 软件 包 提 供 的 程序 ， 也 可 以 进行 
修改 编译 ; 如 果 是 UNIX 类 系统 ， 则 必须 自行 编译 。 

LIBSVM 在 给 出 源 代码 的 同时 还 提供 了 Windows 操 作 系 统 下 的 可 执 
行文 件 ， 包 括 进 行 支持 癌 量 机 训练 的 svmtrain.exe， 根 据 已 获得 的 支持 问 
量 机 模型 对 数据 集 进行 预测 的 svmpredict.exe， 以 及 对 训练 数据 与 测试 数 

















据 进 行规 格 化 操作 的 svmscale.exe。 它 们 都 可 以 直接 在 DOS 环境 中 使 
用 。 

下 载 附带 的 帮助 文件 中 有 LibSVM 的 详细 使 用 方法 并 配 有 使 用 示 
例 ， 相 应 的 pdf 文档 中 还 给 出 了 使 用 LibSVM 的 框架 [13,14]， 其 实 这 也 是 
利用 SVM 解决 实际 问题 的 一 个 通用 框架 。 在 15.4 节 我 们 正 是 遵循 这 一 框 
架 来 解决 问题 的 。 
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